論文の概要: Audio-Guided Visual Perception for Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2510.11760v1
- Date: Mon, 13 Oct 2025 05:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.03677
- Title: Audio-Guided Visual Perception for Audio-Visual Navigation
- Title(参考訳): オーディオガイドによる視覚ナビゲーションのための視覚知覚
- Authors: Yi Wang, Yinfeng Yu, Fuchun Sun, Liejun Wang, Wendong Zheng,
- Abstract要約: Audio-Visual Embodied Navigationは、エージェントが聴覚的手がかりを使用して未知の3D環境の音源に自律的にナビゲートできるようにすることを目的としている。
この制限は、聴覚信号と対応する視覚領域との明確なアライメント機構の欠如に起因する。
本稿では、ポリシーを記憶可能な音響指紋から空間誘導に変換するAGVPフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.672625073122276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-Visual Embodied Navigation aims to enable agents to autonomously navigate to sound sources in unknown 3D environments using auditory cues. While current AVN methods excel on in-distribution sound sources, they exhibit poor cross-source generalization: navigation success rates plummet and search paths become excessively long when agents encounter unheard sounds or unseen environments. This limitation stems from the lack of explicit alignment mechanisms between auditory signals and corresponding visual regions. Policies tend to memorize spurious \enquote{acoustic fingerprint-scenario} correlations during training, leading to blind exploration when exposed to novel sound sources. To address this, we propose the AGVP framework, which transforms sound from policy-memorable acoustic fingerprint cues into spatial guidance. The framework first extracts global auditory context via audio self-attention, then uses this context as queries to guide visual feature attention, highlighting sound-source-related regions at the feature level. Subsequent temporal modeling and policy optimization are then performed. This design, centered on interpretable cross-modal alignment and region reweighting, reduces dependency on specific acoustic fingerprints. Experimental results demonstrate that AGVP improves both navigation efficiency and robustness while achieving superior cross-scenario generalization on previously unheard sounds.
- Abstract(参考訳): Audio-Visual Embodied Navigationは、エージェントが聴覚的手がかりを使用して未知の3D環境の音源に自律的にナビゲートできるようにすることを目的としている。
現行のAVN法は非分布音源に優れるが、ナビゲーション成功率の低下や探索経路の過度な長さは、エージェントが未聴音や見知らぬ環境に遭遇した場合に現れる。
この制限は、聴覚信号と対応する視覚領域との明確なアライメント機構の欠如に起因する。
政策は訓練中に急激な「音響的指紋・検査」相関関係を記憶しがちで、新しい音源に晒されると目が見えない。
そこで本研究では,ポリシーを記憶可能な音響指紋から空間的誘導へ変換するAGVPフレームワークを提案する。
このフレームワークは、まず、音声の自己注意を通してグローバルな聴覚コンテキストを抽出し、このコンテキストをクエリとして使用し、視覚的特徴の注意を誘導し、特徴レベルの音源関連領域をハイライトする。
その後、時間的モデリングとポリシー最適化が行われる。
この設計は、解釈可能なクロスモーダルアライメントと領域再重み付けを中心にしており、特定の音響指紋への依存を減らす。
実験結果から,AGVPは従来聞いていなかった音に対して,より優れたクロスシナリオ一般化を実現しつつ,航法効率とロバスト性の両方を改善した。
関連論文リスト
- Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment [26.399212357764576]
音声-視覚的手がかりに基づく聴覚オブジェクトの正確な位置決めは、音声-視覚的セグメンテーションの中核的な目的である。
本稿では,AMAモジュールとUEモジュールの2つの主要コンポーネントを持つ新しいフレームワークを提案する。
AMAは、複数のグループ内で音声と視覚の相互作用を実行し、オーディオキューに対する応答性に基づいて、グループ機能をコンパクトな表現に集約する。
UEは空間情報と時間情報を統合し、音状態の頻繁な変化に起因する高不確かさ領域を識別する。
論文 参考訳(メタデータ) (2025-03-17T05:48:22Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所対応特徴 (LCF) 変調を適用し、モダリティ共有セマンティクスに焦点を合わせるために単調エンコーダを強制する。
さらに、データ駆動方式で注意領域を動的に調整するローカル適応クロスモーダル(LAC)インタラクションをカスタマイズする。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。