論文の概要: FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching
- arxiv url: http://arxiv.org/abs/2511.13794v1
- Date: Mon, 17 Nov 2025 02:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.72981
- Title: FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching
- Title(参考訳): FusionFM:フローマッチングによるオールインワンマルチモード画像融合
- Authors: Huayi Zhu, Xiu Shu, Youqiang Xiong, Qiao Liu, Rui Chen, Di Yuan, Xiaojun Chang, Zhenyu He,
- Abstract要約: 我々は、画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化する。
タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。
マルチタスクシナリオでは、弾力的な重み強化と経験的再生機構を統合し、クロスタスク性能を維持する。
- 参考スコア(独自算出の注目度): 42.22268167379098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multi-modal image fusion methods typically rely on task-specific models, leading to high training costs and limited scalability. While generative methods provide a unified modeling perspective, they often suffer from slow inference due to the complex sampling trajectories from noise to image. To address this, we formulate image fusion as a direct probabilistic transport from source modalities to the fused image distribution, leveraging the flow matching paradigm to improve sampling efficiency and structural consistency. To mitigate the lack of high-quality fused images for supervision, we collect fusion results from multiple state-of-the-art models as priors, and employ a task-aware selection function to select the most reliable pseudo-labels for each task. We further introduce a Fusion Refiner module that employs a divide-and-conquer strategy to systematically identify, decompose, and enhance degraded components in selected pseudo-labels. For multi-task scenarios, we integrate elastic weight consolidation and experience replay mechanisms to preserve cross-task performance and enhance continual learning ability from both parameter stability and memory retention perspectives. Our approach achieves competitive performance across diverse fusion tasks, while significantly improving sampling efficiency and maintaining a lightweight model design. The code will be available at: https://github.com/Ist-Zhy/FusionFM.
- Abstract(参考訳): 現在のマルチモーダル画像融合法は一般にタスク固有のモデルに依存しており、高いトレーニングコストと限られたスケーラビリティをもたらす。
生成的手法は統一モデリングの観点を提供するが、ノイズから画像への複雑なサンプリング軌跡のために、しばしば遅い推論に悩まされる。
そこで本論文では,画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化し,フローマッチングのパラダイムを活用し,サンプリング効率と構造整合性を向上させる。
監視のための高品質な融合画像の欠如を軽減するため,複数の最先端モデルからの融合結果を先行として収集し,タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。
さらに,選択した擬似ラベルの劣化成分を系統的に識別し,分解し,拡張するための分割・対数戦略を用いたFusion Refinerモジュールを導入する。
マルチタスクシナリオでは、弾力的な重み強化と経験再現機構を統合し、クロスタスク性能を保ち、パラメータ安定性とメモリ保持の観点から連続的な学習能力を向上する。
提案手法は多種多様な融合タスク間での競合性能を実現するとともに,サンプリング効率を大幅に向上し,軽量モデル設計の維持を図る。
コードは、https://github.com/Ist-Zhy/FusionFM.comで入手できる。
関連論文リスト
- Efficient Rectified Flow for Image Fusion [48.330480065862474]
本稿では,画像融合のための1ステップの効率的な拡散モデルであるRFfusionを提案する。
また,画像融合に適したタスク固有の変分オートエンコーダアーキテクチャを提案する。
提案手法は,推算速度と融合品質の両方の観点から,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-09-20T06:21:00Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion [28.543822934210404]
マルチモーダル画像融合は、異なるモーダルからの相補的な情報を統合して、強化された情報的画像を生成する。
本稿では,固定シーケンススキャンに伴うバイアスを取り除くために,ランダムシャッフルと呼ばれるバイーシアンに着想を得た新しいスキャン手法を提案する。
我々は,モンテカルロ平均化に基づくテスト手法を開発し,モデルの出力が期待される結果とより密に一致することを保証する。
論文 参考訳(メタデータ) (2024-09-03T09:12:18Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Progressive Fusion for Multimodal Integration [12.94175198001421]
本稿では,後期融合表現の問題を緩和する,プログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
論文 参考訳(メタデータ) (2022-09-01T09:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。