論文の概要: Text-Guided Channel Perturbation and Pretrained Knowledge Integration for Unified Multi-Modality Image Fusion
- arxiv url: http://arxiv.org/abs/2511.12432v1
- Date: Sun, 16 Nov 2025 03:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.091378
- Title: Text-Guided Channel Perturbation and Pretrained Knowledge Integration for Unified Multi-Modality Image Fusion
- Title(参考訳): 統一多モード画像融合のためのテキストガイドチャネル摂動と事前学習知識の統合
- Authors: Xilai Li, Xiaosong Li, Weijun Jiang,
- Abstract要約: 統一モデルは、多モード画像融合のためのモード間でパラメータを共有することを目的としている。
大きなモダリティの違いは、しばしば勾配の衝突を引き起こし、性能を制限します。
本稿では,チャネル摂動と事前学習型知識統合に基づく統合多モード画像融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.5275479200431406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality image fusion enhances scene perception by combining complementary information. Unified models aim to share parameters across modalities for multi-modality image fusion, but large modality differences often cause gradient conflicts, limiting performance. Some methods introduce modality-specific encoders to enhance feature perception and improve fusion quality. However, this strategy reduces generalisation across different fusion tasks. To overcome this limitation, we propose a unified multi-modality image fusion framework based on channel perturbation and pre-trained knowledge integration (UP-Fusion). To suppress redundant modal information and emphasize key features, we propose the Semantic-Aware Channel Pruning Module (SCPM), which leverages the semantic perception capability of a pre-trained model to filter and enhance multi-modality feature channels. Furthermore, we proposed the Geometric Affine Modulation Module (GAM), which uses original modal features to apply affine transformations on initial fusion features to maintain the feature encoder modal discriminability. Finally, we apply a Text-Guided Channel Perturbation Module (TCPM) during decoding to reshape the channel distribution, reducing the dependence on modality-specific channels. Extensive experiments demonstrate that the proposed algorithm outperforms existing methods on both multi-modality image fusion and downstream tasks.
- Abstract(参考訳): 多モード画像融合は、相補的な情報を組み合わせることでシーン知覚を高める。
統一モデルは、多モード画像融合のためのパラメーターを多モードで共有することを目的としているが、大きなモダリティ差は、しばしば勾配の衝突を引き起こし、性能を制限している。
いくつかの方法は、特徴知覚を高め、融合品質を向上させるために、モダリティ固有のエンコーダを導入している。
しかし、この戦略は異なる融合タスク間の一般化を減らす。
この制限を克服するために、チャネル摂動と事前学習知識統合(UP-Fusion)に基づく統合多モード画像融合フレームワークを提案する。
冗長なモーダル情報を抑制し,重要な特徴を強調するために,事前学習したモデルのセマンティック・アウェア・チャネル・プルーニング・モジュール(SCPM)を提案する。
さらに,初期融合機能にアフィン変換を適用し,特徴エンコーダのモーダル識別性を維持するために,元のモーダル特徴を用いたGeometric Affine Modulation Module (GAM)を提案する。
最後に、デコード中にTCPM(Text-Guided Channel Perturbation Module)を適用し、チャネル分布を再生成し、モダリティ固有のチャネルへの依存を減らす。
大規模な実験により、提案アルゴリズムは、マルチモーダル画像融合と下流タスクの両方において、既存の手法よりも優れていることが示された。
関連論文リスト
- IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection [23.256601188227865]
クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。
提案手法は,オブジェクト認識の相補的クロスモーダル特徴を融合させることにより,有能な構造を適応的に強化する。
IRDFusionは、様々な挑戦的なシナリオで既存のメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-11T01:22:35Z) - Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction [25.880454851313434]
がん生存率分析は、様々な医療指標にまたがって情報を統合して生存時間の予測を行うのが一般的である。
既存の手法は主に、モダリティの異なる分離された特徴を抽出し、結合、注意、MoEベースの融合のような融合操作を実行することに焦点を当てている。
本稿では,モダリティデカップリングと動的MoE融合モジュール間のランダムな特徴再構成戦略を考案したDecoupling-Reorganization-Fusion framework(DeReF)を提案する。
論文 参考訳(メタデータ) (2025-08-26T03:18:25Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion [25.140475569677758]
マルチモーダル画像融合は、様々なモーダルからの情報を総合的な画像を得るために統合することを目的としている。
既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。
本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題の有意な差異を論じる。
論文 参考訳(メタデータ) (2024-11-15T08:36:24Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。