論文の概要: Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds
- arxiv url: http://arxiv.org/abs/2111.14843v1
- Date: Mon, 29 Nov 2021 15:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 14:43:04.990970
- Title: Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds
- Title(参考訳): 耳に耳を傾けると、複雑な非マップ環境におけるオーディオ・ビジュアル・ナビゲーション
- Authors: Abdelrahman Younes, Daniel Honerkamp, Tim Welschehold and Abhinav
Valada
- Abstract要約: オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 5.002862602915434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual navigation combines sight and hearing to navigate to a
sound-emitting source in an unmapped environment. While recent approaches have
demonstrated the benefits of audio input to detect and find the goal, they
focus on clean and static sound sources and struggle to generalize to unheard
sounds. In this work, we propose the novel dynamic audio-visual navigation
benchmark which requires to catch a moving sound source in an environment with
noisy and distracting sounds. We introduce a reinforcement learning approach
that learns a robust navigation policy for these complex settings. To achieve
this, we propose an architecture that fuses audio-visual information in the
spatial feature space to learn correlations of geometric information inherent
in both local maps and audio signals. We demonstrate that our approach
consistently outperforms the current state-of-the-art by a large margin across
all tasks of moving sounds, unheard sounds, and noisy environments, on two
challenging 3D scanned real-world environments, namely Matterport3D and
Replica. The benchmark is available at http://dav-nav.cs.uni-freiburg.de.
- Abstract(参考訳): 視聴覚ナビゲーションは視覚と聴覚を組み合わせることで、未熟な環境では発光源にナビゲートする。
最近のアプローチでは、音声入力による目標の検出と発見の利点が示されているが、それらはクリーンで静的な音源にフォーカスし、耳に届かない音への一般化に苦慮している。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
これらの複雑な設定に対して堅牢なナビゲーションポリシーを学習する強化学習アプローチを導入する。
そこで本研究では,空間的特徴空間に視聴覚情報を融合して,局所地図と音声信号の両方に固有な幾何学的情報の相関関係を学習するアーキテクチャを提案する。
本手法は,matterport3dとreplicaという2つの挑戦的な実環境において,移動音,未聴音,騒音環境のすべてのタスクにおいて,最先端の技術を一貫して上回っている。
ベンチマークはhttp://dav-nav.cs.uni-freiburg.deで利用可能である。
関連論文リスト
- AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Towards Generalisable Audio Representations for Audio-Visual Navigation [18.738943602529805]
オーディオ視覚ナビゲーション(AVN)では、知的エージェントが複雑な3D環境下で常に音を出す物体にナビゲートする必要がある。
本稿では,音声エンコーダの正規化により,この課題に対処するための対照的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T11:00:07Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments [0.0]
本稿では,AIエージェントが邪魔音やうるさい音の存在下で,未マップ環境において移動音源をキャッチしなければならない,新しい動的視覚ナビゲーション・ベンチマークを提案する。
提案手法は, 難聴音への一般化, うるさいシナリオに対する堅牢性などにより, 現在の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-01-12T03:08:03Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。