論文の概要: Resounding Acoustic Fields with Reciprocity
- arxiv url: http://arxiv.org/abs/2510.20602v1
- Date: Thu, 23 Oct 2025 14:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.127799
- Title: Resounding Acoustic Fields with Reciprocity
- Title(参考訳): 相互性を考慮した音場再生
- Authors: Zitong Lan, Yiduo Hao, Mingmin Zhao,
- Abstract要約: 音場学習を容易にする物理に着想を得たアプローチであるVersaを紹介する。
提案手法は,エミッタとリスナのポーズを交換することで,高密度な仮想エミッタ位置を持つ物理的に有効なサンプルを生成する。
以上の結果から,実世界の実環境とシミュレーションデータを用いた音場学習の性能は大幅に向上した。
- 参考スコア(独自算出の注目度): 13.126858950459557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving immersive auditory experiences in virtual environments requires flexible sound modeling that supports dynamic source positions. In this paper, we introduce a task called resounding, which aims to estimate room impulse responses at arbitrary emitter location from a sparse set of measured emitter positions, analogous to the relighting problem in vision. We leverage the reciprocity property and introduce Versa, a physics-inspired approach to facilitating acoustic field learning. Our method creates physically valid samples with dense virtual emitter positions by exchanging emitter and listener poses. We also identify challenges in deploying reciprocity due to emitter/listener gain patterns and propose a self-supervised learning approach to address them. Results show that Versa substantially improve the performance of acoustic field learning on both simulated and real-world datasets across different metrics. Perceptual user studies show that Versa can greatly improve the immersive spatial sound experience. Code, dataset and demo videos are available on the project website: https://waves.seas.upenn.edu/projects/versa.
- Abstract(参考訳): 仮想環境における没入型聴覚体験を実現するには、動的音源位置をサポートする柔軟な音響モデリングが必要である。
本稿では,測光器位置のスパース集合から任意のエミッタ位置における室内インパルス応答を推定することを目的としたリハウンドというタスクを紹介する。
我々は、相互性特性を活用し、音場学習を容易にする物理に着想を得たアプローチであるVersaを導入する。
提案手法は,エミッタとリスナのポーズを交換することで,高密度な仮想エミッタ位置を持つ物理的に有効なサンプルを生成する。
また,エミッタ/リスナーゲインパターンによる相互運用の課題を特定し,それに対応するための自己教師型学習手法を提案する。
以上の結果から,Versaは,様々な指標を用いたシミュレーションおよび実世界のデータセットにおいて,音場学習の性能を著しく向上させることがわかった。
知覚的ユーザスタディは、Versaが没入型空間音体験を大幅に改善できることを示している。
コード、データセット、デモビデオはプロジェクトのWebサイト(https://waves.seas.upenn.edu/projects/versa)で公開されている。
関連論文リスト
- In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。
既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。
フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:41:56Z) - Differentiable Room Acoustic Rendering with Multi-View Vision Priors [12.30408352143278]
本研究では,多視点画像から抽出した視覚的手がかりとアコースティックビームトレーシングを利用した物理ベースの室内音響レンダリングシステムであるAV-DARについて紹介する。
2つのデータセットから6つの実世界の環境にまたがる実験は、我々のマルチモーダルな物理ベースのアプローチが効率的で解釈可能で正確であることを示した。
論文 参考訳(メタデータ) (2025-04-30T17:55:29Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:37Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。