論文の概要: Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2403.18821v1
- Date: Wed, 27 Mar 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:50:03.311340
- Title: Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark
- Title(参考訳): 実音場:音響-視覚室音響データセットとベンチマーク
- Authors: Ziyang Chen, Israel D. Gebru, Christian Richardt, Anurag Kumar, William Laney, Andrew Owens, Alexander Richard,
- Abstract要約: Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
- 参考スコア(独自算出の注目度): 65.79402756995084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new dataset called Real Acoustic Fields (RAF) that captures real acoustic room data from multiple modalities. The dataset includes high-quality and densely captured room impulse response data paired with multi-view images, and precise 6DoF pose tracking data for sound emitters and listeners in the rooms. We used this dataset to evaluate existing methods for novel-view acoustic synthesis and impulse response generation which previously relied on synthetic data. In our evaluation, we thoroughly assessed existing audio and audio-visual models against multiple criteria and proposed settings to enhance their performance on real-world data. We also conducted experiments to investigate the impact of incorporating visual data (i.e., images and depth) into neural acoustic field models. Additionally, we demonstrated the effectiveness of a simple sim2real approach, where a model is pre-trained with simulated data and fine-tuned with sparse real-world data, resulting in significant improvements in the few-shot learning approach. RAF is the first dataset to provide densely captured room acoustic data, making it an ideal resource for researchers working on audio and audio-visual neural acoustic field modeling techniques. Demos and datasets are available on our project page: https://facebookresearch.github.io/real-acoustic-fields/
- Abstract(参考訳): 複数のモードから実音響室データをキャプチャするRAF(Real Acoustic Fields)という新しいデータセットを提案する。
このデータセットは、マルチビュー画像と組み合わせた高品質で密集した部屋インパルス応答データと、部屋内の音の発信者やリスナーの正確な6DoFポーズ追跡データを含む。
このデータセットを用いて,従来合成データに依存していた新しい音響合成とインパルス応答生成の既存手法の評価を行った。
評価では,既存の音声・音声・視覚モデルについて,複数の基準に対して徹底的に評価し,実世界のデータ上での性能を高めるための設定を提案する。
また、視覚データ(画像と深度)を神経音場モデルに組み込むことによる影響を調べる実験を行った。
さらに,シミュレーションデータを用いてモデルを事前学習し,希少な実世界のデータを微調整する,単純なsim2realアプローチの有効性を実証した。
RAFは、密集した部屋の音響データを提供する最初のデータセットであり、オーディオおよびオーディオ・ビジュアル・ニューラル・アコースティック・フィールド・モデリング技術に取り組む研究者にとって理想的なリソースである。
デモとデータセットはプロジェクトのページで公開されている。
関連論文リスト
- ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - RealImpact: A Dataset of Impact Sound Fields for Real Objects [29.066504517249083]
制御条件下で記録された実物体衝撃音の大規模データセットであるRealImpactを提案する。
RealImpactには、50の毎日の物体の衝撃音の15万の録音と詳細なアノテーションが含まれている。
本研究では,物体衝撃音を推定するための現在のシミュレーション手法の参考として,我々のデータセットを用いた予備試行を行う。
論文 参考訳(メタデータ) (2023-06-16T16:25:41Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。
ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文 参考訳(メタデータ) (2020-10-22T14:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。