論文の概要: Semantic Audio-Visual Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2603.19660v1
- Date: Fri, 20 Mar 2026 05:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.011719
- Title: Semantic Audio-Visual Navigation in Continuous Environments
- Title(参考訳): 連続環境におけるセマンティックオーディオ・ビジュアルナビゲーション
- Authors: Yichen Zeng, Hebaixu Wang, Meng Liu, Yu Zhou, Chen Gao, Kehan Chen, Gongping Huang,
- Abstract要約: 音響視覚ナビゲーションにより、エンボディエージェントは聴覚と視覚の両方の手がかりを利用することで、音を放出するターゲットに向かって移動することができる。
SAVNCE(Audio-Visual Navigation in Continuous Environments)を導入し、エージェントは3次元空間で自由に動き、時間的・空間的に整合したオーディオ視覚ストリームを知覚することができる。
本研究では,空間的および意味的な目標表現を共同で符号化し,過去のコンテキストを自己運動の手がかりと統合し,メモリ拡張された目標推論を可能にするマルチモーダルトランスフォーマーモデルMAGNetを提案する。
- 参考スコア(独自算出の注目度): 20.046962371381763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.
- Abstract(参考訳): 音響視覚ナビゲーションにより、エンボディエージェントは聴覚と視覚の両方の手がかりを利用することで、音を放出するターゲットに向かって移動することができる。
しかし、既存のほとんどのアプローチは、バイノーラルなオーディオレンダリングのための事前計算された部屋インパルス応答(RIR)に依存し、エージェントを離散的な格子位置に制限し、空間的に不連続な観察につながる。
より現実的な環境を構築するために,SAVN-CE(Semantic Audio-Visual Navigation in Continuous Environments)を導入する。
この設定では、ターゲットは断続的にサイレントになり、音を完全に消し去ることができ、エージェントは目標情報を失う。
そこで我々は,空間的および意味的な目標表現を共同で符号化し,過去のコンテキストを自己運動の手がかりと統合し,メモリ拡張目標推論を可能にするマルチモーダルトランスフォーマーモデルMAGNetを提案する。
包括的な実験により、MAGNetは最先端の手法を著しく上回り、成功率を12.1\%まで向上させることを示した。
これらの結果は、短距離音に対する頑健さと長距離ナビゲーションのシナリオを強調している。
コードはhttps://github.com/yichenzeng24/SAVN-CEで公開されている。
関連論文リスト
- NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control [59.6128550986024]
ナラスコア(NarraScore)は、感情が物語論理の高密度圧縮として働くという中心的な洞察に基づく階層的なフレームワークである。
NarraScoreは、グローバルな構造とローカルなダイナミズムを調和させるために、Dual-Branch Injection戦略を採用している。
NarraScoreは、無視可能な計算オーバーヘッドを伴う最先端の一貫性と物語のアライメントを実現している。
論文 参考訳(メタデータ) (2026-02-09T09:39:42Z) - Audio-Guided Visual Perception for Audio-Visual Navigation [38.672625073122276]
Audio-Visual Embodied Navigationは、エージェントが聴覚的手がかりを使用して未知の3D環境の音源に自律的にナビゲートできるようにすることを目的としている。
この制限は、聴覚信号と対応する視覚領域との明確なアライメント機構の欠如に起因する。
本稿では、ポリシーを記憶可能な音響指紋から空間誘導に変換するAGVPフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T05:06:45Z) - Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation [41.85539404067887]
オーディオ視覚ナビゲーション(AVN)タスクでは、エンボディエージェントは複雑な3D環境において、音源を自律的にローカライズする必要がある。
既存の手法は、しばしば静的なモダリティ融合戦略に依存し、ステレオオーディオに埋め込まれた空間的手がかりを無視する。
本稿では,2つの重要なイノベーションを生かした,エンドツーエンドの強化学習に基づくAVNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-21T05:11:09Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments [0.0]
本稿では,AIエージェントが邪魔音やうるさい音の存在下で,未マップ環境において移動音源をキャッチしなければならない,新しい動的視覚ナビゲーション・ベンチマークを提案する。
提案手法は, 難聴音への一般化, うるさいシナリオに対する堅牢性などにより, 現在の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-01-12T03:08:03Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。