論文の概要: Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2509.16924v1
- Date: Sun, 21 Sep 2025 05:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.036872
- Title: Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation
- Title(参考訳): ステレオ・アウェア・アテンションを用いたオーディオ誘導動的モダリティ融合によるオーディオ・ビジュアルナビゲーション
- Authors: Jia Li, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng,
- Abstract要約: オーディオ視覚ナビゲーション(AVN)タスクでは、エンボディエージェントは複雑な3D環境において、音源を自律的にローカライズする必要がある。
既存の手法は、しばしば静的なモダリティ融合戦略に依存し、ステレオオーディオに埋め込まれた空間的手がかりを無視する。
本稿では,2つの重要なイノベーションを生かした,エンドツーエンドの強化学習に基づくAVNフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.85539404067887
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In audio-visual navigation (AVN) tasks, an embodied agent must autonomously localize a sound source in unknown and complex 3D environments based on audio-visual signals. Existing methods often rely on static modality fusion strategies and neglect the spatial cues embedded in stereo audio, leading to performance degradation in cluttered or occluded scenes. To address these issues, we propose an end-to-end reinforcement learning-based AVN framework with two key innovations: (1) a \textbf{S}tereo-Aware \textbf{A}ttention \textbf{M}odule (\textbf{SAM}), which learns and exploits the spatial disparity between left and right audio channels to enhance directional sound perception; and (2) an \textbf{A}udio-\textbf{G}uided \textbf{D}ynamic \textbf{F}usion Module (\textbf{AGDF}), which dynamically adjusts the fusion ratio between visual and auditory features based on audio cues, thereby improving robustness to environmental changes. Extensive experiments are conducted on two realistic 3D scene datasets, Replica and Matterport3D, demonstrating that our method significantly outperforms existing approaches in terms of navigation success rate and path efficiency. Notably, our model achieves over 40\% improvement under audio-only conditions compared to the best-performing baselines. These results highlight the importance of explicitly modeling spatial cues from stereo channels and performing deep multi-modal fusion for robust and efficient audio-visual navigation.
- Abstract(参考訳): オーディオ視覚ナビゲーション(AVN)タスクでは、エンボディエージェントは、音声視覚信号に基づいて未知の複雑な3D環境において、音源を自律的にローカライズする必要がある。
既存の手法は、しばしば静的なモダリティ融合戦略に依存し、ステレオオーディオに埋め込まれた空間的手がかりを無視する。
これらの課題に対処するため,(1)a \textbf{S}tereo-Aware \textbf{A}ttention \textbf{M}odule (\textbf{SAM}) と(2)a \textbf{A}udio-\textbf{G}uided \textbf{D}ynamic \textbf{F}usion Module (\textbf{AGDF}) という2つの重要な革新を伴うエンドツーエンド強化学習ベースのAVNフレームワークを提案する。
ReplicaとMatterport3Dという2つの現実的な3Dシーンデータセットを用いて大規模な実験を行い、ナビゲーション成功率と経路効率の点で既存の手法よりも優れていることを示した。
特に,本モデルでは,最高性能のベースラインと比較して,音声のみの条件下で40倍以上の改善が達成されている。
これらの結果は、ステレオチャンネルからの空間的手がかりを明示的にモデル化し、より堅牢で効率的な音声視覚ナビゲーションのための深層多モード融合を実現することの重要性を強調している。
関連論文リスト
- AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition [2.4842074869626396]
双方向モダリティ向上に基づく新しいAVSRフレームワークAD-AVSRを提案する。
具体的には、まず、複数の視点から音声表現を豊かにするための音声二重ストリーム符号化方式を導入する。
我々は、無関係または弱相関のオーディオ視覚対をフィルタリングするために閾値に基づく選択機構を採用する。
論文 参考訳(メタデータ) (2025-08-11T04:23:08Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。