論文の概要: Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2509.21377v1
- Date: Tue, 23 Sep 2025 09:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.885552
- Title: Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation
- Title(参考訳): 効率的なオーディオ・ビジュアルナビゲーションのための動的マルチターゲットフュージョン
- Authors: Yinfeng Yu, Hailong Zhang, Meiling Zhu,
- Abstract要約: 効率的な音声視覚ナビゲーションのための動的マルチターゲットフュージョン(DMTF-AVN)を提案する。
提案手法では,マルチターゲットアーキテクチャと改良されたTransformer機構を組み合わせることで,クロスモーダル情報をフィルタし,選択的にフューズする。
ReplicaとMatterport3Dデータセットの実験により、DMTF-AVNは、成功率(SR)、パス効率(SPL)、シーン適応(SNA)において、既存の手法よりも優れた、最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 3.3359927518257866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audiovisual embodied navigation enables robots to locate audio sources by dynamically integrating visual observations from onboard sensors with the auditory signals emitted by the target. The core challenge lies in effectively leveraging multimodal cues to guide navigation. While prior works have explored basic fusion of visual and audio data, they often overlook deeper perceptual context. To address this, we propose the Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation (DMTF-AVN). Our approach uses a multi-target architecture coupled with a refined Transformer mechanism to filter and selectively fuse cross-modal information. Extensive experiments on the Replica and Matterport3D datasets demonstrate that DMTF-AVN achieves state-of-the-art performance, outperforming existing methods in success rate (SR), path efficiency (SPL), and scene adaptation (SNA). Furthermore, the model exhibits strong scalability and generalizability, paving the way for advanced multimodal fusion strategies in robotic navigation. The code and videos are available at https://github.com/zzzmmm-svg/DMTF.
- Abstract(参考訳): ロボットは、オンボードセンサーからの視覚的な観察と、目標から放射される聴覚信号とを動的に統合することにより、音源の特定を可能にする。
主な課題は、ナビゲーションのガイドにマルチモーダルキューを効果的に活用することである。
以前の研究は視覚と音声の基本的な融合を探求してきたが、それらはしばしば知覚の文脈をより深く見落としている。
そこで本研究では,高能率オーディオ・ビジュアル・ナビゲーションのための動的マルチターゲット・フュージョン(DMTF-AVN)を提案する。
提案手法では,マルチターゲットアーキテクチャと改良されたTransformer機構を組み合わせることで,クロスモーダル情報をフィルタし,選択的にフューズする。
ReplicaとMatterport3Dデータセットの大規模な実験は、DMTF-AVNが最先端のパフォーマンスを実現し、既存の成功率(SR)、パス効率(SPL)、シーン適応(SNA)よりも優れていることを示した。
さらに,ロボットナビゲーションにおける高度なマルチモーダル融合戦略の道を開いた。
コードとビデオはhttps://github.com/zzzmmm-svg/DMTFで公開されている。
関連論文リスト
- MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。
また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文 参考訳(メタデータ) (2025-04-03T05:23:08Z) - STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking [8.238662377845142]
本稿では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。
AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-08T12:15:17Z) - MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - AVT2-DWF: Improving Deepfake Detection with Audio-Visual Fusion and Dynamic Weighting Strategies [8.01792778132834]
AVT2-DWFは、イントラモーダルとクロスモーダルの両方のフォージェリーキューを増幅し、検出能力を向上することを目的としている。
AVT2-DWFは、表情の空間的特徴と時間的ダイナミクスの両方を捉えるための二重ステージアプローチを採用している。
DeepfakeTIMIT、FakeAVCeleb、DFDCデータセットの実験は、AVT2-DWFが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-22T06:04:37Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - HMS: Hierarchical Modality Selection for Efficient Video Recognition [69.2263841472746]
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
論文 参考訳(メタデータ) (2021-04-20T04:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。