論文の概要: Differentiable Room Acoustic Rendering with Multi-View Vision Priors
- arxiv url: http://arxiv.org/abs/2504.21847v1
- Date: Wed, 30 Apr 2025 17:55:29 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 16:04:06.752837
- Title: Differentiable Room Acoustic Rendering with Multi-View Vision Priors
- Title(参考訳): マルチビュー・ビジョン・プリミティブによる室内音響レンダリング
- Authors: Derong Jin, Ruohan Gao,
- Abstract要約: 本研究では,多視点画像から抽出した視覚的手がかりとアコースティックビームトレーシングを利用した物理ベースの室内音響レンダリングシステムであるAV-DARについて紹介する。
2つのデータセットから6つの実世界の環境にまたがる実験は、我々のマルチモーダルな物理ベースのアプローチが効率的で解釈可能で正確であることを示した。
- 参考スコア(独自算出の注目度): 12.30408352143278
- License:
- Abstract: An immersive acoustic experience enabled by spatial audio is just as crucial as the visual aspect in creating realistic virtual environments. However, existing methods for room impulse response estimation rely either on data-demanding learning-based models or computationally expensive physics-based modeling. In this work, we introduce Audio-Visual Differentiable Room Acoustic Rendering (AV-DAR), a framework that leverages visual cues extracted from multi-view images and acoustic beam tracing for physics-based room acoustic rendering. Experiments across six real-world environments from two datasets demonstrate that our multimodal, physics-based approach is efficient, interpretable, and accurate, significantly outperforming a series of prior methods. Notably, on the Real Acoustic Field dataset, AV-DAR achieves comparable performance to models trained on 10 times more data while delivering relative gains ranging from 16.6% to 50.9% when trained at the same scale.
- Abstract(参考訳): 空間オーディオによって実現された没入型音響体験は、現実的な仮想環境を作る際の視覚的側面と同じくらい重要である。
しかし,既存の室内インパルス応答推定手法は,データ要求型学習モデルや計算コストの高い物理モデルに依存している。
本研究では,多視点画像から抽出した視覚的手がかりと,物理に基づく室内音響レンダリングのためのアコースティックビームトレースを利用する,AV-DAR(Audio-Visual Differentiable Room Acoustic Rendering)を提案する。
2つのデータセットから6つの実世界の環境にまたがる実験は、我々のマルチモーダルな物理ベースのアプローチが効率的で、解釈可能で、正確であり、一連の先行手法よりもはるかに優れていることを示した。
特に、Real Acoustic Fieldのデータセットでは、AV-DARは10倍以上のデータでトレーニングされたモデルに匹敵するパフォーマンスを達成し、同じスケールでトレーニングされた場合、相対的なゲインは16.6%から50.9%に向上した。
関連論文リスト
- Sequential Contrastive Audio-Visual Learning [12.848371604063168]
本稿では,非集約的表現空間に基づく実例を対比した逐次コントラスト型音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングされたモデルが、検索に使用されるメトリックに関して、かなりの柔軟性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いて,音場に対する大域的先行を導出する。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心とする局所音場から特徴を抽出し、新しいビューのための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T17:56:14Z) - Multi-Level Neural Scene Graphs for Dynamic Urban Environments [64.26401304233843]
本稿では, 動的都市環境に対する新しい分解可能放射場アプローチを提案する。
本稿では,数百の高速移動物体を含む数十のシーケンスから数千の画像にスケールする多段階ニューラルシーングラフ表現を提案する。
論文 参考訳(メタデータ) (2024-03-29T21:52:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文 参考訳(メタデータ) (2022-04-25T03:37:02Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。