論文の概要: Self-supervised Multiplex Consensus Mamba for General Image Fusion
- arxiv url: http://arxiv.org/abs/2512.20921v1
- Date: Wed, 24 Dec 2025 03:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.670756
- Title: Self-supervised Multiplex Consensus Mamba for General Image Fusion
- Title(参考訳): 一般画像融合のための自己制御多重コンセンサスマンバ
- Authors: Yingying Wang, Rongjin Zhuang, Hui Zheng, Xuanhua He, Ke Cao, Xiaotong Tu, Xinghao Ding,
- Abstract要約: 一般画像融合のための自己教師型多重コンセンサスマンバフレームワークであるSMC-Mambaを提案する。
Modality-Agnostic Feature Enhancement (MAFE)モジュールは適応ゲーティングを通じて詳細を保存する。
MCCM内のクロスモーダルスキャンは、モダリティ間の特徴的相互作用を強化する。
Bi-level Self-supervised Contrastive Learning Loss (BSCL) は、計算オーバーヘッドを増大させることなく高周波情報を保存する。
- 参考スコア(独自算出の注目度): 34.041756423040184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion integrates complementary information from different modalities to generate high-quality fused images, thereby enhancing downstream tasks such as object detection and semantic segmentation. Unlike task-specific techniques that primarily focus on consolidating inter-modal information, general image fusion needs to address a wide range of tasks while improving performance without increasing complexity. To achieve this, we propose SMC-Mamba, a Self-supervised Multiplex Consensus Mamba framework for general image fusion. Specifically, the Modality-Agnostic Feature Enhancement (MAFE) module preserves fine details through adaptive gating and enhances global representations via spatial-channel and frequency-rotational scanning. The Multiplex Consensus Cross-modal Mamba (MCCM) module enables dynamic collaboration among experts, reaching a consensus to efficiently integrate complementary information from multiple modalities. The cross-modal scanning within MCCM further strengthens feature interactions across modalities, facilitating seamless integration of critical information from both sources. Additionally, we introduce a Bi-level Self-supervised Contrastive Learning Loss (BSCL), which preserves high-frequency information without increasing computational overhead while simultaneously boosting performance in downstream tasks. Extensive experiments demonstrate that our approach outperforms state-of-the-art (SOTA) image fusion algorithms in tasks such as infrared-visible, medical, multi-focus, and multi-exposure fusion, as well as downstream visual tasks.
- Abstract(参考訳): 画像融合は、異なるモードからの補完情報を統合して高品質な融合画像を生成することにより、オブジェクト検出やセマンティックセグメンテーションといった下流タスクを強化する。
主にモーダル間の情報を統合することに焦点を当てたタスク固有の技術とは異なり、一般的な画像融合は、複雑さを増すことなくパフォーマンスを改善しながら、幅広いタスクに対処する必要がある。
そこで本稿では,一般画像融合のための自己教師型多重コンセンサス・マンバフレームワークであるSMC-Mambaを提案する。
具体的には、Modality-Agnostic Feature Enhancement (MAFE)モジュールは適応ゲーティングを通じて細部を保存し、空間チャネルと周波数回転走査によるグローバル表現を強化する。
Multiplex Consensus Cross-modal Mamba (MCCM)モジュールは、専門家間の動的コラボレーションを可能にし、複数のモダリティからの補完情報を効率的に統合するために合意に達する。
MCCM内のクロスモーダルスキャンにより、モダリティ間の機能相互作用がさらに強化され、両方のソースからの重要な情報のシームレスな統合が促進される。
さらに,BSCL(Bi-level Self-supervised Contrastive Learning Loss)を導入し,計算オーバーヘッドを増大させることなく,下流タスクのパフォーマンスを同時に向上させる。
広汎な実験により, 近赤外可視, 医療, マルチフォーカス, マルチ露光融合などのタスクや, 下流視覚タスクにおいて, 最先端(SOTA)画像融合アルゴリズムよりも優れていることが示された。
関連論文リスト
- MMMamba: A Versatile Cross-Modal In Context Fusion Framework for Pan-Sharpening and Zero-Shot Image Enhancement [29.94979992704961]
パンシャーピングは高分解能マルチスペクトル(HRMS)画像の生成を目的として,高分解能パンクロマティック(PAN)画像とそれに対応する低分解能マルチスペクトル(MS)画像を統合する。
従来のCNNベースの手法は、チャネルワイズと固定畳み込み演算子との結合に依存している。
パンシャーピングのためのクロスモーダルなインコンテキスト融合フレームワークであるMMMambaを提案する。
論文 参考訳(メタデータ) (2025-12-17T10:07:09Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Task-Customized Mixture of Adapters for General Image Fusion [51.8742437521891]
一般画像融合は、マルチソース画像から重要な情報を統合することを目的としている。
本稿では, 汎用画像融合用アダプタ(TC-MoA)を新たに提案し, 統一モデルにおける様々な融合タスクを適応的に促進する。
論文 参考訳(メタデータ) (2024-03-19T07:02:08Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。