論文の概要: Efficient Rectified Flow for Image Fusion
- arxiv url: http://arxiv.org/abs/2509.16549v2
- Date: Wed, 24 Sep 2025 08:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.82603
- Title: Efficient Rectified Flow for Image Fusion
- Title(参考訳): 画像融合のための効率的な整流流れ
- Authors: Zirui Wang, Jiayi Zhang, Tianwei Guan, Yuhan Zhou, Xingyuan Li, Minjing Dong, Jinyuan Liu,
- Abstract要約: 本稿では,画像融合のための1ステップの効率的な拡散モデルであるRFfusionを提案する。
また,画像融合に適したタスク固有の変分オートエンコーダアーキテクチャを提案する。
提案手法は,推算速度と融合品質の両方の観点から,他の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 48.330480065862474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion is a fundamental and important task in computer vision, aiming to combine complementary information from different modalities to fuse images. In recent years, diffusion models have made significant developments in the field of image fusion. However, diffusion models often require complex computations and redundant inference time, which reduces the applicability of these methods. To address this issue, we propose RFfusion, an efficient one-step diffusion model for image fusion based on Rectified Flow. We incorporate Rectified Flow into the image fusion task to straighten the sampling path in the diffusion model, achieving one-step sampling without the need for additional training, while still maintaining high-quality fusion results. Furthermore, we propose a task-specific variational autoencoder (VAE) architecture tailored for image fusion, where the fusion operation is embedded within the latent space to further reduce computational complexity. To address the inherent discrepancy between conventional reconstruction-oriented VAE objectives and the requirements of image fusion, we introduce a two-stage training strategy. This approach facilitates the effective learning and integration of complementary information from multi-modal source images, thereby enabling the model to retain fine-grained structural details while significantly enhancing inference efficiency. Extensive experiments demonstrate that our method outperforms other state-of-the-art methods in terms of both inference speed and fusion quality. Code is available at https://github.com/zirui0625/RFfusion.
- Abstract(参考訳): 画像融合はコンピュータビジョンにおける基本的かつ重要な課題であり、異なるモダリティからの相補的な情報を融合してイメージを融合することを目的としている。
近年、拡散モデルは画像融合の分野で大きな発展を遂げている。
しかし、拡散モデルは複雑な計算と冗長な推論時間を必要とすることが多く、これらの手法の適用性が低下する。
そこで本研究では,画像融合のための一段階拡散モデルであるRFfusionを提案する。
我々は、画像融合タスクにRectified Flowを組み込んで、拡散モデルにおけるサンプリングパスの整合を図り、追加のトレーニングを必要とせずに1ステップのサンプリングを行いながら、高品質な融合結果を維持する。
さらに,画像融合に適したタスク固有変分オートエンコーダ(VAE)アーキテクチャを提案する。
従来の再建指向のVAE目標と画像融合の要件との相違に対処するために,2段階のトレーニング戦略を導入する。
このアプローチにより,マルチモーダルソース画像からの補完的情報の効果的な学習と統合が容易になり,モデルが細粒度構造を保ちながら推論効率を大幅に向上する。
大規模な実験により,提案手法は推論速度と融合品質の両方の観点から,他の最先端手法よりも優れていることが示された。
コードはhttps://github.com/zirui0625/RFfusionで入手できる。
関連論文リスト
- PIF-Net: Ill-Posed Prior Guided Multispectral and Hyperspectral Image Fusion via Invertible Mamba and Fusion-Aware LoRA [0.16385815610837165]
マルチスペクトル・ハイパースペクトル画像融合(MHIF)の目的は、豊富なスペクトル情報と細かな空間的詳細を同時に持つ高品質な画像を生成することである。
これまでの研究では、データ修正が原因で生じる不適切な性質を効果的に扱っていなかった。
PIF-Net という名前の融合フレームワークを提案し,多重スペクトル画像とハイパースペクトル画像とを効果的に融合させる。
論文 参考訳(メタデータ) (2025-08-01T09:17:17Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - DDRF: Denoising Diffusion Model for Remote Sensing Image Fusion [7.06521373423708]
生成モデルとしてのデノシング拡散モデルは、画像生成の分野で多くの注目を集めている。
画像融合フィールドへの拡散モデルを導入し、画像融合タスクを画像から画像への変換として扱う。
本手法は,画像融合タスクに拡散モデルを適用するために,他の作業に刺激を与え,この分野の洞察を得ることができる。
論文 参考訳(メタデータ) (2023-04-10T12:28:27Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。