論文の概要: SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2508.05264v1
- Date: Thu, 07 Aug 2025 10:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.827833
- Title: SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion
- Title(参考訳): SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion
- Authors: Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot,
- Abstract要約: 本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 38.09521879556221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion (IVIF) aims to combine the thermal radiation information from infrared images with the rich texture details from visible images to enhance perceptual capabilities for downstream visual tasks. However, existing methods often fail to preserve key targets due to a lack of deep semantic understanding of the scene, while the fusion process itself can also introduce artifacts and detail loss, severely compromising both image quality and task performance. To address these issues, this paper proposes SGDFuse, a conditional diffusion model guided by the Segment Anything Model (SAM), to achieve high-fidelity and semantically-aware image fusion. The core of our method is to utilize high-quality semantic masks generated by SAM as explicit priors to guide the optimization of the fusion process via a conditional diffusion model. Specifically, the framework operates in a two-stage process: it first performs a preliminary fusion of multi-modal features, and then utilizes the semantic masks from SAM jointly with the preliminary fused image as a condition to drive the diffusion model's coarse-to-fine denoising generation. This ensures the fusion process not only has explicit semantic directionality but also guarantees the high fidelity of the final result. Extensive experiments demonstrate that SGDFuse achieves state-of-the-art performance in both subjective and objective evaluations, as well as in its adaptability to downstream tasks, providing a powerful solution to the core challenges in image fusion. The code of SGDFuse is available at https://github.com/boshizhang123/SGDFuse.
- Abstract(参考訳): Infrared and visible image fusion (IVIF) は、赤外線画像からの熱放射情報と可視画像からの豊かなテクスチャの詳細を組み合わせ、下流視覚タスクの知覚能力を高めることを目的としている。
しかし、既存の手法ではシーンの深いセマンティックな理解が欠如しているためキーターゲットの保存に失敗することが多く、融合プロセス自体もアーティファクトや詳細損失を導入し、画像の品質とタスクのパフォーマンスを著しく向上させる。
これらの問題に対処するために,Segment Anything Model (SAM) によって導かれる条件拡散モデル SGDFuse を提案する。
提案手法の核となるのは,SAM が生成する高品質なセマンティックマスクを明示的な先行として利用し,条件付き拡散モデルを用いて融合プロセスの最適化を導くことである。
具体的には、まず、マルチモーダル特徴の予備融合を行い、次に、SAMからのセマンティックマスクと予備融合画像とを条件として、拡散モデルの粗大な偏極生成を駆動する。
これにより、融合プロセスは明示的な意味的な方向性を持つだけでなく、最終的な結果の忠実度も保証される。
大規模な実験により、SGDFuseは主観的および客観的な評価と下流タスクへの適応性を両立させ、画像融合におけるコア課題に対する強力な解決策を提供する。
SGDFuseのコードはhttps://github.com/boshizhang123/SGDFuseで公開されている。
関連論文リスト
- DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning [19.22887628187884]
オブジェクト認識とコンテキスト協調学習を備えた新しいLVM誘導型融合フレームワークを提案する。
また、モダリティ差による融合画像における情報衝突を解決するために、新しい特徴相互作用融合ネットワークを設計する。
提案手法の有効性を検証し、下流視覚課題においても例外的な性能を示す。
論文 参考訳(メタデータ) (2025-03-24T12:57:23Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - FaithDiff: Unleashing Diffusion Priors for Faithful Image Super-resolution [48.88184541515326]
本稿では,忠実な画像SRのための遅延拡散モデル(LDM)のパワーをフル活用するために,FithDiffというシンプルで効果的な手法を提案する。
高品質画像上で事前学習した拡散モデルを凍結する既存の拡散ベースSR法とは対照的に,有用な情報を特定し,忠実な構造を復元する前に拡散を解き放つことを提案する。
論文 参考訳(メタデータ) (2024-11-27T23:58:03Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - SSPFusion: A Semantic Structure-Preserving Approach for Infrared and
Visible Image Fusion [30.55433673796615]
既存の学習ベースの赤外線および可視画像融合(IVIF)法は、融合画像に大量の冗長情報を示す。
本稿では,IVIF における意味的構造保存手法,すなわち SSPFusion を提案する。
提案手法は,2組の赤外線画像と可視画像から高品質な融合画像を生成することができ,下流コンピュータビジョンタスクの性能を向上させることができる。
論文 参考訳(メタデータ) (2023-09-26T08:13:32Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。