論文の概要: Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments
- arxiv url: http://arxiv.org/abs/2201.04279v1
- Date: Wed, 12 Jan 2022 03:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 15:01:05.829130
- Title: Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments
- Title(参考訳): 動的視聴覚ナビゲーション:未熟な3d環境における未聴音音源の捕捉
- Authors: Abdelrahman Younes
- Abstract要約: 本稿では,AIエージェントが邪魔音やうるさい音の存在下で,未マップ環境において移動音源をキャッチしなければならない,新しい動的視覚ナビゲーション・ベンチマークを提案する。
提案手法は, 難聴音への一般化, うるさいシナリオに対する堅牢性などにより, 現在の最先端技術よりも優れる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on audio-visual navigation targets a single static sound in
noise-free audio environments and struggles to generalize to unheard sounds. We
introduce the novel dynamic audio-visual navigation benchmark in which an
embodied AI agent must catch a moving sound source in an unmapped environment
in the presence of distractors and noisy sounds. We propose an end-to-end
reinforcement learning approach that relies on a multi-modal architecture that
fuses the spatial audio-visual information from a binaural audio signal and
spatial occupancy maps to encode the features needed to learn a robust
navigation policy for our new complex task settings. We demonstrate that our
approach outperforms the current state-of-the-art with better generalization to
unheard sounds and better robustness to noisy scenarios on the two challenging
3D scanned real-world datasets Replica and Matterport3D, for the static and
dynamic audio-visual navigation benchmarks. Our novel benchmark will be made
available at http://dav-nav.cs.uni-freiburg.de.
- Abstract(参考訳): 最近の視聴覚ナビゲーションの研究は、ノイズのないオーディオ環境において単一の静的な音をターゲットにしており、未聴音への一般化に苦慮している。
本稿では,身体化されたaiエージェントが不注意な環境下で移動音源を捕捉し,ノイズを発生させるダイナミックな音声・ビジュアルナビゲーションベンチマークを提案する。
本研究では,バイノーラル音声信号と空間占有マップから空間視情報を融合して,新しい複雑なタスク設定のためのロバストなナビゲーションポリシを学習するために必要な機能をエンコードするマルチモーダルアーキテクチャに基づく,エンドツーエンドの強化学習手法を提案する。
静的および動的オーディオ視覚ナビゲーションベンチマークでは、3Dスキャンされた実世界のデータセットであるReplicaとMatterport3Dの2つの難易度シナリオにおいて、我々のアプローチが現在の最先端技術より優れ、未聴音へのより良い一般化と、ノイズの多いシナリオに対するロバスト性が向上していることを実証した。
私たちの新しいベンチマークはhttp://dav-nav.cs.uni-freiburg.deで公開されます。
関連論文リスト
- AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Towards Generalisable Audio Representations for Audio-Visual Navigation [18.738943602529805]
オーディオ視覚ナビゲーション(AVN)では、知的エージェントが複雑な3D環境下で常に音を出す物体にナビゲートする必要がある。
本稿では,音声エンコーダの正規化により,この課題に対処するための対照的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T11:00:07Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。