論文の概要: Residual Cross-Modal Fusion Networks for Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2601.08868v1
- Date: Sun, 11 Jan 2026 12:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.106969
- Title: Residual Cross-Modal Fusion Networks for Audio-Visual Navigation
- Title(参考訳): オーディオ・ビジュアルナビゲーションのための残差クロスモーダルフュージョンネットワーク
- Authors: Yi Wang, Yinfeng Yu, Bin Ren,
- Abstract要約: 本稿では、補間モデリングと微粒化アライメントを実現するために、音声と視覚ストリーム間の残差相互作用を導入するクロスモーダル残差融合ネットワークを提案する。
ReplicaとMatterport3Dデータセットの実験では、CRFNは最先端の核融合ベースラインを著しく上回り、より強力なクロスドメインの一般化を実現している。
- 参考スコア(独自算出の注目度): 17.19858148800535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual embodied navigation aims to enable an agent to autonomously localize and reach a sound source in unseen 3D environments by leveraging auditory cues. The key challenge of this task lies in effectively modeling the interaction between heterogeneous features during multimodal fusion, so as to avoid single-modality dominance or information degradation, particularly in cross-domain scenarios. To address this, we propose a Cross-Modal Residual Fusion Network, which introduces bidirectional residual interactions between audio and visual streams to achieve complementary modeling and fine-grained alignment, while maintaining the independence of their representations. Unlike conventional methods that rely on simple concatenation or attention gating, CRFN explicitly models cross-modal interactions via residual connections and incorporates stabilization techniques to improve convergence and robustness. Experiments on the Replica and Matterport3D datasets demonstrate that CRFN significantly outperforms state-of-the-art fusion baselines and achieves stronger cross-domain generalization. Notably, our experiments also reveal that agents exhibit differentiated modality dependence across different datasets. The discovery of this phenomenon provides a new perspective for understanding the cross-modal collaboration mechanism of embodied agents.
- Abstract(参考訳): 視覚的具体化ナビゲーションは、聴覚的手がかりを活用することで、エージェントが見えない3D環境において、自律的に音源をローカライズし、到達できるようにすることを目的としている。
このタスクの重要な課題は、特にクロスドメインシナリオにおいて、単一モダリティの優位性や情報劣化を避けるために、マルチモーダル融合中の異種機能間の相互作用を効果的にモデル化することである。
そこで我々は,音声と視覚ストリーム間の双方向の残留相互作用を導入し,それらの表現の独立性を維持しつつ,相補的モデリングと微粒化アライメントを実現するクロスモーダル残差融合ネットワークを提案する。
単純な連結やアテンションゲーティングに依存する従来の方法とは異なり、CRFNは残留接続を通したクロスモーダル相互作用を明示的にモデル化し、収束とロバスト性を改善するための安定化手法を取り入れている。
ReplicaとMatterport3Dデータセットの実験では、CRFNは最先端の核融合ベースラインを著しく上回り、より強力なクロスドメインの一般化を実現している。
特に、我々の実験では、エージェントが異なるデータセット間で異なるモダリティ依存を示すことも明らかにした。
この現象の発見は、エンボディエージェントの相互協調機構を理解するための新しい視点を提供する。
関連論文リスト
- CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception [9.983779569276475]
コラボレーティブアライメント・アンド・トランスフォーメーション・ネットワーク(CATNet)は、マルチエージェントシステムにおける時間遅延とノイズ干渉を解決する適応補償フレームワークである。
まず、非同期機能ストリームの整合性を備えた時空間リカレントシンクロナイゼーション(STSync)を紹介します。
第2に,大域的雑音を抑制し,局所的特徴歪みを再構成するDual-Branch Wavelet Enhanced Denoiser (WTDen) を設計する。
第三に、ロバスト融合のための重要な知覚機能に動的にフォーカスする適応的特徴選択器(AdpSel)を構築する。
論文 参考訳(メタデータ) (2026-03-05T15:07:36Z) - Wireless Federated Multi-Task LLM Fine-Tuning via Sparse-and-Orthogonal LoRA [61.12136997430116]
低ランク適応(LoRA)に基づく分散連合学習(DFL)により、マルチタスクデータセットを持つモバイルデバイスは、ローカルに更新されたパラメータを、無線接続を介して近隣デバイスのサブセットと交換することで、大きな言語モデル(LLM)を協調的に微調整することができる。
不均一データセットに微調整されたパラメータを直接集約すると、DFLライフサイクルの3つの主要な問題が発生する: (i) 微調整プロセス中に忘れる破滅的な知識、(ii) データの異種性に起因する更新方向の矛盾に起因する。
論文 参考訳(メタデータ) (2026-02-24T02:45:32Z) - IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection [23.256601188227865]
クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。
提案手法は,オブジェクト認識の相補的クロスモーダル特徴を融合させることにより,有能な構造を適応的に強化する。
IRDFusionは、様々な挑戦的なシナリオで既存のメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-11T01:22:35Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。