論文の概要: SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning
- arxiv url: http://arxiv.org/abs/2206.08312v1
- Date: Thu, 16 Jun 2022 17:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:59:19.722045
- Title: SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning
- Title(参考訳): SoundSpaces 2.0: 視覚音響学習のためのシミュレーションプラットフォーム
- Authors: Changan Chen, Carl Schissler, Sanchit Garg, Philip Kobernik, Alexander
Clegg, Paul Calamia, Dhruv Batra, Philip W Robinson, Kristen Grauman
- Abstract要約: SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
- 参考スコア(独自算出の注目度): 127.1119359047849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SoundSpaces 2.0, a platform for on-the-fly geometry-based audio
rendering for 3D environments. Given a 3D mesh of a real-world environment,
SoundSpaces can generate highly realistic acoustics for arbitrary sounds
captured from arbitrary microphone locations. Together with existing 3D visual
assets, it supports an array of audio-visual research tasks, such as
audio-visual navigation, mapping, source localization and separation, and
acoustic matching. Compared to existing resources, SoundSpaces 2.0 has the
advantages of allowing continuous spatial sampling, generalization to novel
environments, and configurable microphone and material properties. To our best
knowledge, this is the first geometry-based acoustic simulation that offers
high fidelity and realism while also being fast enough to use for embodied
learning. We showcase the simulator's properties and benchmark its performance
against real-world audio measurements. In addition, through two downstream
tasks covering embodied navigation and far-field automatic speech recognition,
highlighting sim2real performance for the latter. SoundSpaces 2.0 is publicly
available to facilitate wider research for perceptual systems that can both see
and hear.
- Abstract(参考訳): 3d環境のためのオンザフライジオメトリベースのオーディオレンダリングのためのプラットフォームであるsoundspaces 2.0を紹介する。
SoundSpacesは実環境の3Dメッシュを前提として、任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成することができる。
既存の3Dビジュアルアセットとともに、オーディオ視覚ナビゲーション、マッピング、ソースのローカライゼーションと分離、音響マッチングなどのオーディオ視覚研究タスクをサポートする。
既存のリソースと比較すると、SoundSpaces 2.0は連続的な空間サンプリング、新しい環境への一般化、設定可能なマイクと材料特性の利点がある。
私たちの知る限りでは、これは幾何学に基づく最初の音響シミュレーションであり、高い忠実性とリアリズムを提供すると同時に、具体化学習に使えるほど高速である。
シミュレータの特性をデモし,実世界の音響計測に対する性能評価を行った。
さらに、埋め込みナビゲーションと遠距離自動音声認識を含む2つの下流タスクを通じて、後者の性能を強調した。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムの広範な研究を促進するために公開されている。
関連論文リスト
- 3D Audio-Visual Segmentation [44.61476023587931]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound [5.999777817331317]
SEE-2-SOUNDは,タスクを(1)視覚領域の識別,(2)これらの要素を3次元空間に配置すること,(3)モノオーディオを生成すること,(4)空間オーディオに統合すること,に分解するゼロショットアプローチである。
本フレームワークを用いて,インターネットから高画質ビデオ,画像,ダイナミック画像,および学習手法によって生成されたメディアに対して,空間音声を生成するための説得力のある結果を提示する。
論文 参考訳(メタデータ) (2024-06-06T22:55:01Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments [0.0]
本稿では,AIエージェントが邪魔音やうるさい音の存在下で,未マップ環境において移動音源をキャッチしなければならない,新しい動的視覚ナビゲーション・ベンチマークを提案する。
提案手法は, 難聴音への一般化, うるさいシナリオに対する堅牢性などにより, 現在の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-01-12T03:08:03Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。