論文の概要: Novel-View Acoustic Synthesis from 3D Reconstructed Rooms
- arxiv url: http://arxiv.org/abs/2310.15130v1
- Date: Mon, 23 Oct 2023 17:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:16:55.994752
- Title: Novel-View Acoustic Synthesis from 3D Reconstructed Rooms
- Title(参考訳): 3次元リコンストラクションによる新しい音響合成
- Authors: Byeongjoo Ahn, Karren Yang, Brian Hamilton, Jonathan Sheaffer, Anurag
Ranjan, Miguel Sarabia, Oncel Tuzel, Jen-Hao Rick Chang
- Abstract要約: そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
- 参考スコア(独自算出の注目度): 18.49261985372842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the benefit of combining blind audio recordings with 3D scene
information for novel-view acoustic synthesis. Given audio recordings from 2-4
microphones and the 3D geometry and material of a scene containing multiple
unknown sound sources, we estimate the sound anywhere in the scene. We identify
the main challenges of novel-view acoustic synthesis as sound source
localization, separation, and dereverberation. While naively training an
end-to-end network fails to produce high-quality results, we show that
incorporating room impulse responses (RIRs) derived from 3D reconstructed rooms
enables the same network to jointly tackle these tasks. Our method outperforms
existing methods designed for the individual tasks, demonstrating its
effectiveness at utilizing 3D visual information. In a simulated study on the
Matterport3D-NVAS dataset, our model achieves near-perfect accuracy on source
localization, a PSNR of 26.44 dB and a SDR of 14.23 dB for source separation
and dereverberation, resulting in a PSNR of 25.55 dB and a SDR of 14.20 dB on
novel-view acoustic synthesis. Code, pretrained model, and video results are
available on the project webpage (https://github.com/apple/ml-nvas3d).
- Abstract(参考訳): 本研究では,視覚障害者の音声記録と3次元シーン情報を組み合わせた新たな音響合成の利点について検討する。
2-4マイクロホンからの音声記録と、複数の未知音源を含むシーンの3次元形状と素材を考慮し、シーン内どこでも音を推定する。
音源の定位,分離,残響として,新規な音像合成の課題を明らかにした。
エンド・ツー・エンドのネットワークをネーティブにトレーニングしても質の高い結果が得られないが、3次元再構成された部屋から引き起こされた部屋インパルス応答(RIR)を組み込むことで、同じネットワークがこれらのタスクに共同で取り組むことができることを示す。
提案手法は,個々のタスクに対して設計した既存手法を上回り,3次元視覚情報を利用した場合の有効性を示す。
matterport3d-nvasデータセットをシミュレートした研究では、ソースローカライズに関するほぼ完全な精度、26.44dbのpsnrとソース分離とデバーバレーションのためのsdrの14.23db、その結果psnrは25.55db、sdrは14.20dbとなる。
コード、事前トレーニングされたモデル、ビデオの結果は、プロジェクトwebページ(https://github.com/apple/ml-nvas3d)で見ることができる。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality [15.034352805342937]
L3DAS23 Signal Processing Grand Challenge at ICASSP 2023の主な目標は、3Dオーディオ信号処理のための機械学習に関する共同研究の促進と支援である。
我々は、L3DAS21とL3DAS22のデータセットと同じ一般的な特性を維持する新しいデータセットを提供する。
両タスクのベースラインモデルを更新し,音声画像のカップルを入力としてサポートし,その結果を再現するサポートAPIを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:34:28Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - AudioEar: Single-View Ear Reconstruction for Personalized Spatial Audio [44.460995595847606]
単一視点画像を用いて3次元人間の耳を再構成し,パーソナライズされた空間音声を実現することを提案する。
視覚と音響のギャップを埋めるために,再建された耳メッシュと市販の3D人体を一体化するためのパイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-30T02:15:50Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。