論文の概要: Novel-View Acoustic Synthesis from 3D Reconstructed Rooms
- arxiv url: http://arxiv.org/abs/2310.15130v1
- Date: Mon, 23 Oct 2023 17:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:16:55.994752
- Title: Novel-View Acoustic Synthesis from 3D Reconstructed Rooms
- Title(参考訳): 3次元リコンストラクションによる新しい音響合成
- Authors: Byeongjoo Ahn, Karren Yang, Brian Hamilton, Jonathan Sheaffer, Anurag
Ranjan, Miguel Sarabia, Oncel Tuzel, Jen-Hao Rick Chang
- Abstract要約: そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
- 参考スコア(独自算出の注目度): 18.49261985372842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the benefit of combining blind audio recordings with 3D scene
information for novel-view acoustic synthesis. Given audio recordings from 2-4
microphones and the 3D geometry and material of a scene containing multiple
unknown sound sources, we estimate the sound anywhere in the scene. We identify
the main challenges of novel-view acoustic synthesis as sound source
localization, separation, and dereverberation. While naively training an
end-to-end network fails to produce high-quality results, we show that
incorporating room impulse responses (RIRs) derived from 3D reconstructed rooms
enables the same network to jointly tackle these tasks. Our method outperforms
existing methods designed for the individual tasks, demonstrating its
effectiveness at utilizing 3D visual information. In a simulated study on the
Matterport3D-NVAS dataset, our model achieves near-perfect accuracy on source
localization, a PSNR of 26.44 dB and a SDR of 14.23 dB for source separation
and dereverberation, resulting in a PSNR of 25.55 dB and a SDR of 14.20 dB on
novel-view acoustic synthesis. Code, pretrained model, and video results are
available on the project webpage (https://github.com/apple/ml-nvas3d).
- Abstract(参考訳): 本研究では,視覚障害者の音声記録と3次元シーン情報を組み合わせた新たな音響合成の利点について検討する。
2-4マイクロホンからの音声記録と、複数の未知音源を含むシーンの3次元形状と素材を考慮し、シーン内どこでも音を推定する。
音源の定位,分離,残響として,新規な音像合成の課題を明らかにした。
エンド・ツー・エンドのネットワークをネーティブにトレーニングしても質の高い結果が得られないが、3次元再構成された部屋から引き起こされた部屋インパルス応答(RIR)を組み込むことで、同じネットワークがこれらのタスクに共同で取り組むことができることを示す。
提案手法は,個々のタスクに対して設計した既存手法を上回り,3次元視覚情報を利用した場合の有効性を示す。
matterport3d-nvasデータセットをシミュレートした研究では、ソースローカライズに関するほぼ完全な精度、26.44dbのpsnrとソース分離とデバーバレーションのためのsdrの14.23db、その結果psnrは25.55db、sdrは14.20dbとなる。
コード、事前トレーニングされたモデル、ビデオの結果は、プロジェクトwebページ(https://github.com/apple/ml-nvas3d)で見ることができる。
関連論文リスト
- Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality [15.034352805342937]
L3DAS23 Signal Processing Grand Challenge at ICASSP 2023の主な目標は、3Dオーディオ信号処理のための機械学習に関する共同研究の促進と支援である。
我々は、L3DAS21とL3DAS22のデータセットと同じ一般的な特性を維持する新しいデータセットを提供する。
両タスクのベースラインモデルを更新し,音声画像のカップルを入力としてサポートし,その結果を再現するサポートAPIを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:34:28Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - 3D-MOV: Audio-Visual LSTM Autoencoder for 3D Reconstruction of Multiple
Objects from Video [29.26483070179999]
音声視覚入力を用いた3次元再構成のためのマルチモーダル・シングルフレーム・マルチフレームニューラルネットワークを提案する。
訓練されたLSTMオートエンコーダ3D-MOVは、様々な表面タイプやビューを考慮に入れた複数の入力を受信する。
論文 参考訳(メタデータ) (2021-10-05T23:23:19Z) - L3DAS21 Challenge: Machine Learning for 3D Audio Signal Processing [6.521891605165917]
L3DAS21チャレンジは、3Dオーディオ信号処理のための機械学習に関する共同研究の促進と促進を目的としています。
65時間の3DオーディオコーパスであるL3DAS21データセットを,データ使用と結果の提出を容易化するPython APIとともにリリースした。
論文 参考訳(メタデータ) (2021-04-12T14:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。