論文の概要: Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction
- arxiv url: http://arxiv.org/abs/2604.05007v1
- Date: Mon, 06 Apr 2026 13:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.403163
- Title: Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction
- Title(参考訳): バイノーラル差分注意と行動遷移予測による一般化可能なオーディオ・ビジュアルナビゲーション
- Authors: Jia Li, Yinfeng Yu,
- Abstract要約: オーディオ・ビジュアル・ナビゲーション(AVN)では、エージェントは視覚的および聴覚的手がかりを使用して、見えない3D環境の音源を見つける必要がある。
本稿では,認知と政策を協調的に最適化する行動遷移予測(BDATP)フレームワークを提案する。
我々のフレームワークは、ほとんどの設定において最先端の成功率を達成し、未聴音に対するReplicaデータセットにおいて最大21.6ポイントの絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 9.175273901304253
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In Audio-Visual Navigation (AVN), agents must locate sound sources in unseen 3D environments using visual and auditory cues. However, existing methods often struggle with generalization in unseen scenarios, as they tend to overfit to semantic sound features and specific training environments. To address these challenges, we propose the \textbf{Binaural Difference Attention with Action Transition Prediction (BDATP)} framework, which jointly optimizes perception and policy. Specifically, the \textbf{Binaural Difference Attention (BDA)} module explicitly models interaural differences to enhance spatial orientation, reducing reliance on semantic categories. Simultaneously, the \textbf{Action Transition Prediction (ATP)} task introduces an auxiliary action prediction objective as a regularization term, mitigating environment-specific overfitting. Extensive experiments on the Replica and Matterport3D datasets demonstrate that BDATP can be seamlessly integrated into various mainstream baselines, yielding consistent and significant performance gains. Notably, our framework achieves state-of-the-art Success Rates across most settings, with a remarkable absolute improvement of up to 21.6 percentage points in Replica dataset for unheard sounds. These results underscore BDATP's superior generalization capability and its robustness across diverse navigation architectures.
- Abstract(参考訳): オーディオ・ビジュアル・ナビゲーション(AVN)では、エージェントは視覚的および聴覚的手がかりを使用して、見えない3D環境の音源を見つける必要がある。
しかしながら、既存の手法は、意味的な音の特徴や特定の訓練環境に過度に適合する傾向があるため、目に見えないシナリオにおける一般化に苦慮することが多い。
これらの課題に対処するために,認識とポリシーを協調的に最適化する,行動遷移予測付きtextbf{Binaural Difference Attention with Action Transition Prediction (BDATP) フレームワークを提案する。
具体的には、textbf{Binaural Difference Attention (BDA)モジュールは、空間的指向性を高め、意味圏への依存を減らすために、音間差を明示的にモデル化する。
同時に、 \textbf{Action transition Prediction (ATP)} タスクは、環境固有のオーバーフィッティングを緩和する正規化用語として補助的なアクション予測の目的を導入する。
ReplicaとMatterport3Dデータセットに関する大規模な実験は、BDATPをさまざまなメインストリームベースラインにシームレスに統合できることを示し、一貫性と大幅なパフォーマンス向上をもたらす。
特に、我々のフレームワークは、ほとんどの設定において最先端の成功率を達成し、未聴音に対するReplicaデータセットにおいて最大21.6ポイントの絶対的な改善を実現しています。
これらの結果は、BDATPの優れた一般化能力と多様なナビゲーションアーキテクチャにおける堅牢性を裏付けるものである。
関連論文リスト
- dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3 [36.6036728217708]
Open-Vocabulary Semantics (OVSS)は、テキスト定義カテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に見えないクラスに信頼性の高い一般化を要求する。
我々は dinov3.seg を導入し、 dinov3.txt を OVSS 専用のフレームワークに拡張した。
まず、このバックボーンに合わせたタスク固有のアーキテクチャを設計し、従来のオープン語彙セグメンテーション作業から確立した設計原則を体系的に適用する。
第2に、VTベースのエンコーダのグローバルトークンとローカルパッチレベルのビジュアル特徴の両方に整合したテキスト埋め込みを共同で活用する。
論文 参考訳(メタデータ) (2026-03-19T23:57:28Z) - Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - Audio-Guided Visual Perception for Audio-Visual Navigation [38.672625073122276]
Audio-Visual Embodied Navigationは、エージェントが聴覚的手がかりを使用して未知の3D環境の音源に自律的にナビゲートできるようにすることを目的としている。
この制限は、聴覚信号と対応する視覚領域との明確なアライメント機構の欠如に起因する。
本稿では、ポリシーを記憶可能な音響指紋から空間誘導に変換するAGVPフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T05:06:45Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。