論文の概要: Points2Sound: From mono to binaural audio using 3D point cloud scenes
- arxiv url: http://arxiv.org/abs/2104.12462v1
- Date: Mon, 26 Apr 2021 10:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:20:35.802819
- Title: Points2Sound: From mono to binaural audio using 3D point cloud scenes
- Title(参考訳): ポイント2Sound:3Dポイントクラウドシーンを用いたモノからバイノーラルオーディオへ
- Authors: Francesc Llu\'is, Vasileios Chatziioannou, Alex Hofmann
- Abstract要約: 視覚的なものと一致するバイノーラルサウンドは、拡張現実(AR)および仮想現実(VR)アプリケーションの人々にとって有意義で没入的な体験をもたらすために重要です。
近年の研究では,2次元視覚情報を用いてモノから音声を生成できることが示されている。
本稿では,3Dポイントクラウドシーンを用いたモノオーディオからバージョンを生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Binaural sound that matches the visual counterpart is crucial to bring
meaningful and immersive experiences to people in augmented reality (AR) and
virtual reality (VR) applications. Recent works have shown the possibility to
generate binaural audio from mono using 2D visual information as guidance.
Using 3D visual information may allow for a more accurate representation of a
virtual audio scene for VR/AR applications. This paper proposes Points2Sound, a
multi-modal deep learning model which generates a binaural version from mono
audio using 3D point cloud scenes. Specifically, Points2Sound consist of a
vision network which extracts visual features from the point cloud scene to
condition an audio network, which operates in the waveform domain, to
synthesize the binaural version. Both quantitative and perceptual evaluations
indicate that our proposed model is preferred over a reference case, based on a
recent 2D mono-to-binaural model.
- Abstract(参考訳): 視覚にマッチするバイノーラルサウンドは、拡張現実(AR)や仮想現実(VR)アプリケーションにおいて、有意義で没入的な体験をもたらすために不可欠である。
近年の研究では2次元視覚情報を用いてモノからバイノーラル音声を生成する可能性を示している。
3Dビジュアル情報を使用することで、VR/ARアプリケーション用の仮想オーディオシーンをより正確に表現することができる。
本稿では,3Dポイントクラウドシーンを用いたモノオーディオからバイノーラル版を生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
具体的には、points2soundは、ポイントクラウドシーンから視覚特徴を抽出するビジョンネットワークからなり、波形領域で動作するオーディオネットワークを条件付けしてバイノーラルバージョンを合成する。
定量的および知覚的評価は,最近の2次元モノツーバイノーラルモデルに基づいて,提案モデルが参照ケースよりも好まれていることを示している。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Music source separation conditioned on 3D point clouds [0.0]
本稿では,音楽演奏記録の3次元点雲に条件付き音源分離を行うマルチモーダル深層学習モデルを提案する。
3次元スパース畳み込みを用いて視覚特徴を抽出し、高密度畳み込みを用いて音声特徴を抽出する。
融合モジュールは抽出した特徴を組み合わせて、最終的に音源分離を行う。
論文 参考訳(メタデータ) (2021-02-03T12:18:35Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。