論文の概要: Enhancing XR Auditory Realism via Multimodal Scene-Aware Acoustic Rendering
- arxiv url: http://arxiv.org/abs/2511.11930v1
- Date: Fri, 14 Nov 2025 23:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.403309
- Title: Enhancing XR Auditory Realism via Multimodal Scene-Aware Acoustic Rendering
- Title(参考訳): マルチモーダルシーン認識音響レンダリングによるXR聴覚リアリズムの強化
- Authors: Tianyu Xu, Jihan Li, Penghe Zu, Pranav Sahay, Maruchi Kim, Jack Obeng-Marnu, Farley Miller, Xun Qian, Katrina Passarella, Mahitha Rachumalla, Rajeev Nongpiur, D. Shin,
- Abstract要約: 物理的環境に動的に適応して空間的に正確な音を描画する新しいオンデバイスシステムであるSAMOSAを紹介する。
SAMOSAは、室内形状、表面材料、意味駆動音響コンテキストのリアルタイム推定を融合することにより、相乗的マルチモーダルシーン表現を利用する。
このリッチな表現により、シーン先行による効率的な音響キャリブレーションが可能になり、システムは非常にリアルなRoom Impulse Response(RIR)を合成できる。
- 参考スコア(独自算出の注目度): 5.528622598353137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Extended Reality (XR), rendering sound that accurately simulates real-world acoustics is pivotal in creating lifelike and believable virtual experiences. However, existing XR spatial audio rendering methods often struggle with real-time adaptation to diverse physical scenes, causing a sensory mismatch between visual and auditory cues that disrupts user immersion. To address this, we introduce SAMOSA, a novel on-device system that renders spatially accurate sound by dynamically adapting to its physical environment. SAMOSA leverages a synergistic multimodal scene representation by fusing real-time estimations of room geometry, surface materials, and semantic-driven acoustic context. This rich representation then enables efficient acoustic calibration via scene priors, allowing the system to synthesize a highly realistic Room Impulse Response (RIR). We validate our system through technical evaluation using acoustic metrics for RIR synthesis across various room configurations and sound types, alongside an expert evaluation (N=12). Evaluation results demonstrate SAMOSA's feasibility and efficacy in enhancing XR auditory realism.
- Abstract(参考訳): 拡張現実感(XR)では、現実の音響を正確にシミュレートする音のレンダリングが、生活のような、信じられない仮想体験を生み出す上で重要な要素である。
しかし、既存のXR空間オーディオレンダリング手法は、様々な物理的シーンへのリアルタイム適応に苦しむことが多く、視覚と聴覚の間に感覚的ミスマッチが生じ、ユーザの没入を阻害する。
そこで本研究では,その物理的環境に動的に適応して空間的精度の高い音を描画する,新しいオンデバイスシステムであるSAMOSAを紹介する。
SAMOSAは、室内形状、表面材料、意味駆動音響コンテキストのリアルタイム推定を融合することにより、相乗的マルチモーダルシーン表現を利用する。
このリッチな表現により、シーン先行による効率的な音響キャリブレーションが可能になり、システムは非常にリアルなRoom Impulse Response (RIR)を合成できる。
各種室構成, 音響タイプにまたがるRIR合成のための音響測定値と, 専門家による評価(N=12)を用いて, 本システムの有効性を検証した。
評価結果は,XR聴覚リアリズムの増強におけるSAMOSAの有効性と有効性を示した。
関連論文リスト
- Sonify Anything: Towards Context-Aware Sonic Interactions in AR [38.82194569186157]
実物体の材料を認識・分節するコンピュータビジョンの手法を用いた文脈認識型音の枠組みを提案する。
結果は、物質に基づく音がより現実的な音素相互作用をもたらすことを示している。
これらの結果から,ARにおける文脈認識,物質に基づく音素相互作用は,より強い現実感を育み,現実の環境に対する認識を高めることが示唆された。
論文 参考訳(メタデータ) (2025-08-03T14:56:56Z) - Differentiable Room Acoustic Rendering with Multi-View Vision Priors [12.30408352143278]
本研究では,多視点画像から抽出した視覚的手がかりとアコースティックビームトレーシングを利用した物理ベースの室内音響レンダリングシステムであるAV-DARについて紹介する。
2つのデータセットから6つの実世界の環境にまたがる実験は、我々のマルチモーダルな物理ベースのアプローチが効率的で解釈可能で正確であることを示した。
論文 参考訳(メタデータ) (2025-04-30T17:55:29Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T17:56:14Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis [0.3587367153279349]
音響環境の単一画像から可聴音インパルス応答を生成するために、エンドツーエンドのニューラルネットワークアーキテクチャを使用します。
多様な設定やフォーマットからもっともらしいインパルス応答を生成することで、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2021-03-26T01:25:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。