論文の概要: SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding
- arxiv url: http://arxiv.org/abs/2504.05576v1
- Date: Tue, 08 Apr 2025 00:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 03:10:07.208486
- Title: SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding
- Title(参考訳): SoundVista:ビジュアル・音響結合による新しいアンビエント・サウンド・シンセサイザー
- Authors: Mingfei Chen, Israel D. Gebru, Ishwarya Ananthabhotla, Christian Richardt, Dejan Markovic, Jake Sandakly, Steven Krenn, Todd Keebler, Eli Shlizerman, Alexander Richard,
- Abstract要約: 本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。
SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
- 参考スコア(独自算出の注目度): 51.311553815466446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SoundVista, a method to generate the ambient sound of an arbitrary scene at novel viewpoints. Given a pre-acquired recording of the scene from sparsely distributed microphones, SoundVista can synthesize the sound of that scene from an unseen target viewpoint. The method learns the underlying acoustic transfer function that relates the signals acquired at the distributed microphones to the signal at the target viewpoint, using a limited number of known recordings. Unlike existing works, our method does not require constraints or prior knowledge of sound source details. Moreover, our method efficiently adapts to diverse room layouts, reference microphone configurations and unseen environments. To enable this, we introduce a visual-acoustic binding module that learns visual embeddings linked with local acoustic properties from panoramic RGB and depth data. We first leverage these embeddings to optimize the placement of reference microphones in any given scene. During synthesis, we leverage multiple embeddings extracted from reference locations to get adaptive weights for their contribution, conditioned on target viewpoint. We benchmark the task on both publicly available data and real-world settings. We demonstrate significant improvements over existing methods.
- Abstract(参考訳): 本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。
SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
本手法は,分散マイクロホンで取得した信号とターゲット視点の信号とを,限られた数の既知の記録を用いて関連づける基礎となる音響伝達関数を学習する。
既存の研究とは異なり,本手法は音源の詳細に関する制約や事前知識を必要としない。
さらに,本手法は,多様な部屋配置,参照マイクロホン構成,目に見えない環境に効率よく適応する。
これを実現するために,パノラマRGBと深度データから局所音響特性に関連付けられた視覚埋め込みを学習する視覚音響結合モジュールを提案する。
まず、これらの埋め込みを利用して、任意のシーンにおける参照マイクの配置を最適化する。
合成の際には, 基準位置から抽出した複数の埋め込みを利用して, 目標視点を条件に, それらの寄与に対する適応的な重み付けを行う。
我々は、公開データと実世界の両方の設定でタスクをベンチマークする。
既存の手法よりも大幅に改善されたことを示す。
関連論文リスト
- SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。
大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文 参考訳(メタデータ) (2024-12-22T05:04:17Z) - SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いて,音場に対する大域的先行を導出する。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心とする局所音場から特徴を抽出し、新しいビューのための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。