論文の概要: Semantic Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2012.11583v2
- Date: Wed, 7 Apr 2021 01:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:39:17.750880
- Title: Semantic Audio-Visual Navigation
- Title(参考訳): セマンティックオーディオ・ビジュアルナビゲーション
- Authors: Changan Chen, Ziad Al-Halah, Kristen Grauman
- Abstract要約: 環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
- 参考スコア(独自算出の注目度): 93.12180578267186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on audio-visual navigation assumes a constantly-sounding target
and restricts the role of audio to signaling the target's position. We
introduce semantic audio-visual navigation, where objects in the environment
make sounds consistent with their semantic meaning (e.g., toilet flushing, door
creaking) and acoustic events are sporadic or short in duration. We propose a
transformer-based model to tackle this new semantic AudioGoal task,
incorporating an inferred goal descriptor that captures both spatial and
semantic properties of the target. Our model's persistent multimodal memory
enables it to reach the goal even long after the acoustic event stops. In
support of the new task, we also expand the SoundSpaces audio simulations to
provide semantically grounded sounds for an array of objects in Matterport3D.
Our method strongly outperforms existing audio-visual navigation methods by
learning to associate semantic, acoustic, and visual cues.
- Abstract(参考訳): 最近の音声視覚ナビゲーションの研究は、常に聞こえるターゲットを仮定し、ターゲットの位置を知らせるための音声の役割を制限する。
環境中の物体が意味的意味(例えば、トイレのフラッシング、ドアのクレーキング)と一致し、音響イベントが時間的に散発的または短くなるようなセマンティックオーディオ視覚ナビゲーションを導入する。
目標の空間的および意味的特性をキャプチャする推論された目標記述子を組み込んだ,この新しい意味的音声処理に取り組むトランスフォーマティブモデルを提案する。
我々のモデルの永続的マルチモーダルメモリは、音響イベントが停止した後でもゴールに達することができる。
新しいタスクをサポートするため、私たちはsoundspacesオーディオシミュレーションを拡張して、matterport3d内のオブジェクトの配列に意味的に接地したサウンドを提供します。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual
Navigation in Noisy Environments [41.21509045214965]
CAVENは、エージェントが音声目標にナビゲートするタスクを解決するためのヒューマン/オーラルと対話することのできるフレームワークである。
以上の結果から,我々の全会話的アプローチは,成功率のオーダー・オブ・マグニチュード改善にほぼ寄与していることがわかった。
論文 参考訳(メタデータ) (2023-06-06T22:32:49Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments [0.0]
本稿では,AIエージェントが邪魔音やうるさい音の存在下で,未マップ環境において移動音源をキャッチしなければならない,新しい動的視覚ナビゲーション・ベンチマークを提案する。
提案手法は, 難聴音への一般化, うるさいシナリオに対する堅牢性などにより, 現在の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-01-12T03:08:03Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。