論文の概要: Explicit Context-Driven Neural Acoustic Modeling for High-Fidelity RIR Generation
- arxiv url: http://arxiv.org/abs/2509.15210v1
- Date: Thu, 18 Sep 2025 17:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.387431
- Title: Explicit Context-Driven Neural Acoustic Modeling for High-Fidelity RIR Generation
- Title(参考訳): 高密度RIR生成のための明示的文脈駆動型ニューラル音響モデル
- Authors: Chen Si, Qianyi Wu, Chaitanya Amballa, Romit Roy Choudhury,
- Abstract要約: 所与の場所で粗い部屋メッシュを問合せし,局所文脈の明示的な表現として距離分布を抽出するメッシュ注入型ニューラルネットワーク(MiNAF)を提案する。
我々のアプローチは、明示的な局所幾何学的特徴を取り入れることで、より正確なRIR予測を生成する上で、ニューラルネットワークをより導出できることを実証している。
- 参考スコア(独自算出の注目度): 17.013738637228553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic sound simulation plays a critical role in many applications. A key element in sound simulation is the room impulse response (RIR), which characterizes how sound propagates from a source to a listener within a given space. Recent studies have applied neural implicit methods to learn RIR using context information collected from the environment, such as scene images. However, these approaches do not effectively leverage explicit geometric information from the environment. To further exploit the potential of neural implicit models with direct geometric features, we present Mesh-infused Neural Acoustic Field (MiNAF), which queries a rough room mesh at given locations and extracts distance distributions as an explicit representation of local context. Our approach demonstrates that incorporating explicit local geometric features can better guide the neural network in generating more accurate RIR predictions. Through comparisons with conventional and state-of-the-art baseline methods, we show that MiNAF performs competitively across various evaluation metrics. Furthermore, we verify the robustness of MiNAF in datasets with limited training samples, demonstrating an advance in high-fidelity sound simulation.
- Abstract(参考訳): 現実的な音響シミュレーションは多くの応用において重要な役割を果たす。
音響シミュレーションの鍵となる要素は室内インパルス応答 (RIR) である。
近年の研究では、シーンイメージなどの環境から収集した文脈情報を用いて、RIRの学習に神経暗黙的手法を適用している。
しかし、これらの手法は環境からの明示的な幾何学的情報を効果的に活用するものではない。
直接幾何学的特徴を持つニューラル暗黙モデルの可能性をさらに活用するために、所定の場所で粗い部屋メッシュを問合せ、局所文脈の明示的な表現として距離分布を抽出するメッシュ注入ニューラル・アコースティック・フィールド(MiNAF)を提案する。
我々のアプローチは、明示的な局所幾何学的特徴を取り入れることで、より正確なRIR予測を生成する上で、ニューラルネットワークをより導出できることを実証している。
従来のベースライン法と最先端のベースライン法を比較して,様々な評価指標でMiNAFが競争力を発揮することを示す。
さらに,訓練サンプルが限られているデータセットにおけるMINAFのロバスト性を検証し,高忠実度音響シミュレーションの進歩を実証した。
関連論文リスト
- DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models [16.92449230293275]
高品質なRIR推定は、仮想マイク、音源のローカライゼーション、拡張現実、データ拡張などのアプリケーションを駆動する。
本研究は, 騒音拡散確率モデル(DDPM)を用いて, 室内の未測定箇所でRIRを推定することの課題に対処する。
論文 参考訳(メタデータ) (2025-04-29T10:52:07Z) - Hearing Anywhere in Any Environment [33.566252963174556]
本稿では,クロスルームルームインパルス応答(RIR)予測のためのフレームワークであるxRIRを提案する。
我々の一般化可能なアプローチの中核は、パノラマ深度画像から空間コンテキストをキャプチャする幾何学的特徴抽出器と、いくつかの参照RIRサンプルから詳細な音響特徴を抽出するRIRエンコーダを組み合わせることである。
実験により,本手法が一連のベースラインを強く上回ることを示すとともに,実世界の4つの環境におけるモデルの評価を行い,我々のアプローチの一般化可能性とデータセットの現実性を示した。
論文 参考訳(メタデータ) (2025-04-14T22:37:52Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。