論文の概要: Audio Spatially-Guided Fusion for Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2604.02389v1
- Date: Thu, 02 Apr 2026 07:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.133814
- Title: Audio Spatially-Guided Fusion for Audio-Visual Navigation
- Title(参考訳): オーディオ・ビジュアルナビゲーションのための空間誘導型フュージョン
- Authors: Xinyu Zhou, Yinfeng Yu,
- Abstract要約: オーディオ・ビジュアル・ナビゲーションのためのオーディオ空間誘導型フュージョンを提案する。
まず,対象とする空間状態情報を適応的に抽出する音声空間特徴エンコーダを設計する。
そこで本研究では,マルチモーダル特徴の動的アライメントと適応融合を実現するために,ASGF(Audio Spatial State Guided Fusion)を導入する。
- 参考スコア(独自算出の注目度): 6.536516025407856
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual Navigation refers to an agent utilizing visual and auditory information in complex 3D environments to accomplish target localization and path planning, thereby achieving autonomous navigation. The core challenge of this task lies in the following: how the agent can break free from the dependence on training data and achieve autonomous navigation with good generalization performance when facing changes in environments and sound sources. To address this challenge, we propose an Audio Spatially-Guided Fusion for Audio-Visual Navigation method. First, we design an audio spatial feature encoder, which adaptively extracts target-related spatial state information through an audio intensity attention mechanism; based on this, we introduce an Audio Spatial State Guided Fusion (ASGF) to achieve dynamic alignment and adaptive fusion of multimodal features, effectively alleviating noise interference caused by perceptual uncertainty. Experimental results on the Replica and Matterport3D datasets indicate that our method is particularly effective on unheard tasks, demonstrating improved generalization under unknown sound source distributions.
- Abstract(参考訳): オーディオ視覚ナビゲーション(Audio-Viual Navigation)とは、複雑な3D環境における視覚情報と聴覚情報を利用して、目標位置決めと経路計画を行い、自律的なナビゲーションを実現するエージェントである。
エージェントがトレーニングデータへの依存から解放し、環境や音源の変化に直面した場合に、優れた一般化性能で自律的なナビゲーションを実現する方法について、このタスクの課題は以下の通りである。
この課題に対処するために、オーディオ・ビジュアル・ナビゲーションのためのオーディオ空間ガイド型フュージョンを提案する。
まず,音声強調注意機構を用いて,対象とする空間状態情報を適応的に抽出する音響空間特徴エンコーダを設計し,これに基づいて,マルチモーダル特徴の動的アライメントと適応融合を実現するオーディオ空間状態ガイド融合(ASGF)を導入し,知覚的不確実性に起因するノイズ干渉を効果的に緩和する。
Replica および Matterport3D データセットによる実験結果から,提案手法は未知の音源分布下での一般化が向上していることが示唆された。
関連論文リスト
- Semantic Audio-Visual Navigation in Continuous Environments [20.046962371381763]
音響視覚ナビゲーションにより、エンボディエージェントは聴覚と視覚の両方の手がかりを利用することで、音を放出するターゲットに向かって移動することができる。
SAVNCE(Audio-Visual Navigation in Continuous Environments)を導入し、エージェントは3次元空間で自由に動き、時間的・空間的に整合したオーディオ視覚ストリームを知覚することができる。
本研究では,空間的および意味的な目標表現を共同で符号化し,過去のコンテキストを自己運動の手がかりと統合し,メモリ拡張された目標推論を可能にするマルチモーダルトランスフォーマーモデルMAGNetを提案する。
論文 参考訳(メタデータ) (2026-03-20T05:49:50Z) - Audio-Guided Visual Perception for Audio-Visual Navigation [38.672625073122276]
Audio-Visual Embodied Navigationは、エージェントが聴覚的手がかりを使用して未知の3D環境の音源に自律的にナビゲートできるようにすることを目的としている。
この制限は、聴覚信号と対応する視覚領域との明確なアライメント機構の欠如に起因する。
本稿では、ポリシーを記憶可能な音響指紋から空間誘導に変換するAGVPフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T05:06:45Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所対応特徴 (LCF) 変調を適用し、モダリティ共有セマンティクスに焦点を合わせるために単調エンコーダを強制する。
さらに、データ駆動方式で注意領域を動的に調整するローカル適応クロスモーダル(LAC)インタラクションをカスタマイズする。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual
Navigation in Noisy Environments [41.21509045214965]
CAVENは、エージェントが音声目標にナビゲートするタスクを解決するためのヒューマン/オーラルと対話することのできるフレームワークである。
以上の結果から,我々の全会話的アプローチは,成功率のオーダー・オブ・マグニチュード改善にほぼ寄与していることがわかった。
論文 参考訳(メタデータ) (2023-06-06T22:32:49Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。