論文の概要: MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement
- arxiv url: http://arxiv.org/abs/2602.01760v1
- Date: Mon, 02 Feb 2026 07:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.987176
- Title: MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement
- Title(参考訳): MagicFuse:ビジュアルとセマンティック強化のための単一イメージフュージョン
- Authors: Hao Zhang, Yanping Zha, Zizhuo Li, Meiqi Gong, Jiayi Ma,
- Abstract要約: 本稿では,従来のデータレベルの融合を知識レベルまで拡張する,単一イメージ融合という新しい概念を提案する。
MagicFuseは、1つの低画質の可視像から包括的クロススペクトルシーン表現を導出できる新しい単一画像融合フレームワークである。
- 参考スコア(独自算出の注目度): 38.48174002671134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on a highly practical scenario: how to continue benefiting from the advantages of multi-modal image fusion under harsh conditions when only visible imaging sensors are available. To achieve this goal, we propose a novel concept of single-image fusion, which extends conventional data-level fusion to the knowledge level. Specifically, we develop MagicFuse, a novel single image fusion framework capable of deriving a comprehensive cross-spectral scene representation from a single low-quality visible image. MagicFuse first introduces an intra-spectral knowledge reinforcement branch and a cross-spectral knowledge generation branch based on the diffusion models. They mine scene information obscured in the visible spectrum and learn thermal radiation distribution patterns transferred to the infrared spectrum, respectively. Building on them, we design a multi-domain knowledge fusion branch that integrates the probabilistic noise from the diffusion streams of these two branches, from which a cross-spectral scene representation can be obtained through successive sampling. Then, we impose both visual and semantic constraints to ensure that this scene representation can satisfy human observation while supporting downstream semantic decision-making. Extensive experiments show that our MagicFuse achieves visual and semantic representation performance comparable to or even better than state-of-the-art fusion methods with multi-modal inputs, despite relying solely on a single degraded visible image.
- Abstract(参考訳): 本稿では,可視画像センサのみを使用する場合の厳しい条件下でのマルチモーダル画像融合の利点の活用を継続する方法について,非常に実践的なシナリオに焦点を当てる。
この目的を達成するために,従来のデータレベルの融合を知識レベルまで拡張する単一イメージ融合という新しい概念を提案する。
具体的には、1つの低品質な可視像から包括的クロススペクトルシーン表現を導出できる新しい単一画像融合フレームワークであるMagicFuseを開発する。
MagicFuseはまず、拡散モデルに基づいて、スペクトル内知識強化ブランチとスペクトル間知識生成ブランチを導入する。
彼らは、可視光スペクトルに隠されたシーン情報をマイニングし、それぞれ赤外線スペクトルに伝達される熱放射分布パターンを学習する。
これらに基づいて,これらの2つの枝の拡散流から確率的雑音を統合する多領域知識融合枝を設計する。
そして、このシーンの表現が、下流のセマンティック意思決定をサポートしながら人間の観察を満足させることができるように、視覚的制約と意味的制約を課す。
大規模な実験により、MagicFuseは、単一の劣化した可視画像のみに依存するにもかかわらず、マルチモーダル入力を持つ最先端の融合手法に匹敵する、あるいはそれ以上の視覚的および意味的表現性能を達成することが示された。
関連論文リスト
- SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System [22.331591533400402]
インテリジェントトランスポートシステム(ITS)における赤外線および可視画像融合(IVF)の役割
本稿では,2つのモーダリティ戦略に基づく先行的意味誘導画像融合法を提案する。
論文 参考訳(メタデータ) (2024-03-24T16:41:50Z) - UMCFuse: A Unified Multiple Complex Scenes Infrared and Visible Image Fusion Framework [18.30261731071375]
UMCFuseと呼ばれる複雑なシーンにおける赤外線と可視画像の融合のための統合フレームワークを提案する。
我々は、可視画像のピクセルを光透過の散乱度から分類し、全体的な強度から細部を分離する。
論文 参考訳(メタデータ) (2024-02-03T09:27:33Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - SSPFusion: A Semantic Structure-Preserving Approach for Infrared and Visible Image Fusion [15.513687345562499]
マルチモーダル画像融合のための意味的構造保存融合法を提案する。
本手法は, 定性評価と定量的評価の両面で, 9つの最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-26T08:13:32Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。