論文の概要: Hearing Anywhere in Any Environment
- arxiv url: http://arxiv.org/abs/2504.10746v1
- Date: Mon, 14 Apr 2025 22:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:05.174519
- Title: Hearing Anywhere in Any Environment
- Title(参考訳): あらゆる環境に耳を傾ける
- Authors: Xiulong Liu, Anurag Kumar, Paul Calamia, Sebastia V. Amengual, Calvin Murdock, Ishwarya Ananthabhotla, Philip Robinson, Eli Shlizerman, Vamsi Krishna Ithapu, Ruohan Gao,
- Abstract要約: 本稿では,クロスルームルームインパルス応答(RIR)予測のためのフレームワークであるxRIRを提案する。
我々の一般化可能なアプローチの中核は、パノラマ深度画像から空間コンテキストをキャプチャする幾何学的特徴抽出器と、いくつかの参照RIRサンプルから詳細な音響特徴を抽出するRIRエンコーダを組み合わせることである。
実験により,本手法が一連のベースラインを強く上回ることを示すとともに,実世界の4つの環境におけるモデルの評価を行い,我々のアプローチの一般化可能性とデータセットの現実性を示した。
- 参考スコア(独自算出の注目度): 33.566252963174556
- License:
- Abstract: In mixed reality applications, a realistic acoustic experience in spatial environments is as crucial as the visual experience for achieving true immersion. Despite recent advances in neural approaches for Room Impulse Response (RIR) estimation, most existing methods are limited to the single environment on which they are trained, lacking the ability to generalize to new rooms with different geometries and surface materials. We aim to develop a unified model capable of reconstructing the spatial acoustic experience of any environment with minimum additional measurements. To this end, we present xRIR, a framework for cross-room RIR prediction. The core of our generalizable approach lies in combining a geometric feature extractor, which captures spatial context from panorama depth images, with a RIR encoder that extracts detailed acoustic features from only a few reference RIR samples. To evaluate our method, we introduce ACOUSTICROOMS, a new dataset featuring high-fidelity simulation of over 300,000 RIRs from 260 rooms. Experiments show that our method strongly outperforms a series of baselines. Furthermore, we successfully perform sim-to-real transfer by evaluating our model on four real-world environments, demonstrating the generalizability of our approach and the realism of our dataset.
- Abstract(参考訳): 複合現実感の応用においては、空間環境における現実的な音響体験は、真の没入を実現するための視覚体験と同じくらい重要である。
室内インパルス応答 (RIR) 推定のための最近の神経アプローチの進歩にもかかわらず、既存の手法のほとんどは訓練対象の環境に限られており、異なる測地線と表面材料を持つ新しい部屋に一般化する能力は欠如している。
我々は,最小限の余分な測定値で任意の環境の空間音響体験を再構築できる統一モデルを開発することを目的とする。
そこで我々は,クロスルームRIR予測のためのフレームワークであるxRIRを提案する。
我々の一般化可能なアプローチの中核は、パノラマ深度画像から空間コンテキストをキャプチャする幾何学的特徴抽出器と、いくつかの参照RIRサンプルから詳細な音響特徴を抽出するRIRエンコーダを組み合わせることである。
提案手法を評価するために,260室の300,000RIRの高忠実度シミュレーションを特徴とする新しいデータセットACOUSTICROOMSを提案する。
実験の結果,本手法は一連のベースラインを強く上回ることがわかった。
さらに、実世界の4つの環境におけるモデルの評価を行い、我々のアプローチの一般化可能性とデータセットのリアリズムを実証し、シミュレート・トゥ・リアル・トランスファーを成功させた。
関連論文リスト
- EnvGS: Modeling View-Dependent Appearance with Environment Gaussian [78.74634059559891]
EnvGSは、環境の反射を捉えるための明示的な3D表現として、ガウスプリミティブのセットを利用する新しいアプローチである。
これらの環境を効率的にレンダリングするために,高速レンダリングにGPUのRTコアを利用するレイトレーシングベースのリフレクションを開発した。
複数の実世界および合成データセットから得られた結果は,本手法がより詳細な反射を生成することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:57Z) - Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T17:56:14Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。
特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。
RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文 参考訳(メタデータ) (2024-04-05T08:52:32Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Toward Real-World Light Field Super-Resolution [39.90540075718412]
我々は,Lytro ILLUMカメラを用いて,室内および屋外の様々なシーンの低解像度と高解像度の2つの光場をキャプチャした,世界初の実世界の光場SRデータセットLytroZoomを紹介する。
また,Omni-Frequency Projection Network (OFPNet)を提案する。
実験によると、LytroZoomでトレーニングされたモデルは、合成データセットでトレーニングされたモデルよりも優れており、多様なコンテンツやデバイスに一般化可能である。
論文 参考訳(メタデータ) (2023-05-30T12:46:50Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - IllumiNet: Transferring Illumination from Planar Surfaces to Virtual
Objects in Augmented Reality [38.83696624634213]
本稿では,学習による実環境における仮想物体の照明推定手法を提案する。
一つのRGB画像が与えられた場合、シーンの平面面から抽出した照明特徴を所望のジオメトリに転送することで、信頼度の高い仮想オブジェクトを直接推測する。
論文 参考訳(メタデータ) (2020-07-12T13:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。