論文の概要: Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2403.18821v1
- Date: Wed, 27 Mar 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:50:03.311340
- Title: Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark
- Title(参考訳): 実音場:音響-視覚室音響データセットとベンチマーク
- Authors: Ziyang Chen, Israel D. Gebru, Christian Richardt, Anurag Kumar, William Laney, Andrew Owens, Alexander Richard,
- Abstract要約: Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
- 参考スコア(独自算出の注目度): 65.79402756995084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new dataset called Real Acoustic Fields (RAF) that captures real acoustic room data from multiple modalities. The dataset includes high-quality and densely captured room impulse response data paired with multi-view images, and precise 6DoF pose tracking data for sound emitters and listeners in the rooms. We used this dataset to evaluate existing methods for novel-view acoustic synthesis and impulse response generation which previously relied on synthetic data. In our evaluation, we thoroughly assessed existing audio and audio-visual models against multiple criteria and proposed settings to enhance their performance on real-world data. We also conducted experiments to investigate the impact of incorporating visual data (i.e., images and depth) into neural acoustic field models. Additionally, we demonstrated the effectiveness of a simple sim2real approach, where a model is pre-trained with simulated data and fine-tuned with sparse real-world data, resulting in significant improvements in the few-shot learning approach. RAF is the first dataset to provide densely captured room acoustic data, making it an ideal resource for researchers working on audio and audio-visual neural acoustic field modeling techniques. Demos and datasets are available on our project page: https://facebookresearch.github.io/real-acoustic-fields/
- Abstract(参考訳): 複数のモードから実音響室データをキャプチャするRAF(Real Acoustic Fields)という新しいデータセットを提案する。
このデータセットは、マルチビュー画像と組み合わせた高品質で密集した部屋インパルス応答データと、部屋内の音の発信者やリスナーの正確な6DoFポーズ追跡データを含む。
このデータセットを用いて,従来合成データに依存していた新しい音響合成とインパルス応答生成の既存手法の評価を行った。
評価では,既存の音声・音声・視覚モデルについて,複数の基準に対して徹底的に評価し,実世界のデータ上での性能を高めるための設定を提案する。
また、視覚データ(画像と深度)を神経音場モデルに組み込むことによる影響を調べる実験を行った。
さらに,シミュレーションデータを用いてモデルを事前学習し,希少な実世界のデータを微調整する,単純なsim2realアプローチの有効性を実証した。
RAFは、密集した部屋の音響データを提供する最初のデータセットであり、オーディオおよびオーディオ・ビジュアル・ニューラル・アコースティック・フィールド・モデリング技術に取り組む研究者にとって理想的なリソースである。
デモとデータセットはプロジェクトのページで公開されている。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios [19.24195341920164]
移動音源データを生成する合成ツールキットであるSonicSimを紹介する。
シーンレベル、マイクレベル、ソースレベルを含むマルチレベル調整をサポートする。
合成データと実世界のデータの違いを検証するため,残響のない生データの5時間をランダムに選択した。
その結果,SonicSimが生成した合成データは実世界のシナリオに効果的に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T12:33:59Z) - Pre-training with Synthetic Patterns for Audio [18.769951782213973]
本稿では,実際の音声データの代わりに合成パターンを用いた音声エンコーダの事前学習を提案する。
本フレームワークは,AudioSet-2Mで事前学習したモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-01T08:52:35Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - RealImpact: A Dataset of Impact Sound Fields for Real Objects [29.066504517249083]
制御条件下で記録された実物体衝撃音の大規模データセットであるRealImpactを提案する。
RealImpactには、50の毎日の物体の衝撃音の15万の録音と詳細なアノテーションが含まれている。
本研究では,物体衝撃音を推定するための現在のシミュレーション手法の参考として,我々のデータセットを用いた予備試行を行う。
論文 参考訳(メタデータ) (2023-06-16T16:25:41Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。