論文の概要: Multi-Modal Image Fusion via Intervention-Stable Feature Learning
- arxiv url: http://arxiv.org/abs/2603.23272v1
- Date: Tue, 24 Mar 2026 14:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.537132
- Title: Multi-Modal Image Fusion via Intervention-Stable Feature Learning
- Title(参考訳): 干渉安定特徴学習によるマルチモーダル画像融合
- Authors: Xue Wang, Zheng Guan, Wenhua Qian, Chengchao Wang, Runzhuo Ma,
- Abstract要約: 本稿では、ロバストな相互依存を特定するために、因果原理に着想を得た介入に基づくフレームワークを提案する。
提案手法は,公開ベンチマークと下流高レベル視覚タスクの両方でSOTA性能を実現する。
- 参考スコア(独自算出の注目度): 8.38110675007969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal image fusion integrates complementary information from different modalities into a unified representation. Current methods predominantly optimize statistical correlations between modalities, often capturing dataset-induced spurious associations that degrade under distribution shifts. In this paper, we propose an intervention-based framework inspired by causal principles to identify robust cross-modal dependencies. Drawing insights from Pearl's causal hierarchy, we design three principled intervention strategies to probe different aspects of modal relationships: i) complementary masking with spatially disjoint perturbations tests whether modalities can genuinely compensate for each other's missing information, ii) random masking of identical regions identifies feature subsets that remain informative under partial observability, and iii) modality dropout evaluates the irreplaceable contribution of each modality. Based on these interventions, we introduce a Causal Feature Integrator (CFI) that learns to identify and prioritize intervention-stable features maintaining importance across different perturbation patterns through adaptive invariance gating, thereby capturing robust modal dependencies rather than spurious correlations. Extensive experiments demonstrate that our method achieves SOTA performance on both public benchmarks and downstream high-level vision tasks.
- Abstract(参考訳): マルチモーダル画像融合は、異なるモーダルの相補的な情報を統一表現に統合する。
現在の手法は主にモーダル性間の統計的相関を最適化し、しばしば分布シフトの下で劣化するデータセットによって引き起こされる刺激的な関連を捉えている。
本稿では、ロバストな相互依存を特定するために、因果原理に着想を得た介入に基づくフレームワークを提案する。
パールの因果関係から洞察を得て、3つの基本的な介入戦略を設計し、モーダル関係の異なる側面を探索する。
一 モダリティが互いに欠落した情報を真に補うことができるかどうかを、空間的に不整合な摂動による相補的なマスキング
二 同一の領域のランダムマスキングは、部分的可観測性の下で情報的であり続ける特徴的サブセットを識別し、
三 モダリティドロップアウトは、各モダリティの相応の貢献を評価すること。
これらの介入に基づいて、適応的不変ゲーティングにより、異なる摂動パターンにおける重要度を維持する介入安定特徴を特定し、優先順位付けする因果的特徴積分器(CFI)を導入し、刺激的相関よりも頑健なモーダル依存を捕捉する。
広汎な実験により,本手法は公的なベンチマークと下流の高レベル視覚タスクの両方でSOTA性能を実現することが示された。
関連論文リスト
- Dual-Stream Cross-Modal Representation Learning via Residual Semantic Decorrelation [5.272868130772015]
クロスモーダル表現は、しばしばモダリティ支配、冗長な情報結合、急激なクロスモーダル相関に悩まされる。
本稿では,Dual-Stream Residual Semantic Deorrelation Network (DSRSD-Net)を提案する。
論文 参考訳(メタデータ) (2025-12-08T14:01:16Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。