論文の概要: Residual Cross-Modal Fusion Networks for Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2601.08868v1
- Date: Sun, 11 Jan 2026 12:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.106969
- Title: Residual Cross-Modal Fusion Networks for Audio-Visual Navigation
- Title(参考訳): オーディオ・ビジュアルナビゲーションのための残差クロスモーダルフュージョンネットワーク
- Authors: Yi Wang, Yinfeng Yu, Bin Ren,
- Abstract要約: 本稿では、補間モデリングと微粒化アライメントを実現するために、音声と視覚ストリーム間の残差相互作用を導入するクロスモーダル残差融合ネットワークを提案する。
ReplicaとMatterport3Dデータセットの実験では、CRFNは最先端の核融合ベースラインを著しく上回り、より強力なクロスドメインの一般化を実現している。
- 参考スコア(独自算出の注目度): 17.19858148800535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual embodied navigation aims to enable an agent to autonomously localize and reach a sound source in unseen 3D environments by leveraging auditory cues. The key challenge of this task lies in effectively modeling the interaction between heterogeneous features during multimodal fusion, so as to avoid single-modality dominance or information degradation, particularly in cross-domain scenarios. To address this, we propose a Cross-Modal Residual Fusion Network, which introduces bidirectional residual interactions between audio and visual streams to achieve complementary modeling and fine-grained alignment, while maintaining the independence of their representations. Unlike conventional methods that rely on simple concatenation or attention gating, CRFN explicitly models cross-modal interactions via residual connections and incorporates stabilization techniques to improve convergence and robustness. Experiments on the Replica and Matterport3D datasets demonstrate that CRFN significantly outperforms state-of-the-art fusion baselines and achieves stronger cross-domain generalization. Notably, our experiments also reveal that agents exhibit differentiated modality dependence across different datasets. The discovery of this phenomenon provides a new perspective for understanding the cross-modal collaboration mechanism of embodied agents.
- Abstract(参考訳): 視覚的具体化ナビゲーションは、聴覚的手がかりを活用することで、エージェントが見えない3D環境において、自律的に音源をローカライズし、到達できるようにすることを目的としている。
このタスクの重要な課題は、特にクロスドメインシナリオにおいて、単一モダリティの優位性や情報劣化を避けるために、マルチモーダル融合中の異種機能間の相互作用を効果的にモデル化することである。
そこで我々は,音声と視覚ストリーム間の双方向の残留相互作用を導入し,それらの表現の独立性を維持しつつ,相補的モデリングと微粒化アライメントを実現するクロスモーダル残差融合ネットワークを提案する。
単純な連結やアテンションゲーティングに依存する従来の方法とは異なり、CRFNは残留接続を通したクロスモーダル相互作用を明示的にモデル化し、収束とロバスト性を改善するための安定化手法を取り入れている。
ReplicaとMatterport3Dデータセットの実験では、CRFNは最先端の核融合ベースラインを著しく上回り、より強力なクロスドメインの一般化を実現している。
特に、我々の実験では、エージェントが異なるデータセット間で異なるモダリティ依存を示すことも明らかにした。
この現象の発見は、エンボディエージェントの相互協調機構を理解するための新しい視点を提供する。
関連論文リスト
- IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection [23.256601188227865]
クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。
提案手法は,オブジェクト認識の相補的クロスモーダル特徴を融合させることにより,有能な構造を適応的に強化する。
IRDFusionは、様々な挑戦的なシナリオで既存のメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-11T01:22:35Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。