論文の概要: FS-Diff: Semantic guidance and clarity-aware simultaneous multimodal image fusion and super-resolution
- arxiv url: http://arxiv.org/abs/2509.09427v1
- Date: Thu, 11 Sep 2025 13:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.391232
- Title: FS-Diff: Semantic guidance and clarity-aware simultaneous multimodal image fusion and super-resolution
- Title(参考訳): FS-Diff:Semantic GuideとClarity-Aware Multimodal Image fusionと超解像
- Authors: Yuchan Jie, Yushen Xu, Xiaosong Li, Fuqiang Zhou, Jianming Lv, Huafeng Li,
- Abstract要約: 軍事偵察や長距離検知といった現実世界の応用では、マルチモーダル画像のターゲット構造と背景構造が容易に破損する。
FS-Diff, 意味指導, 明快な関節画像融合および超解像法を提案する。
- 参考スコア(独自算出の注目度): 19.183004285219184
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As an influential information fusion and low-level vision technique, image fusion integrates complementary information from source images to yield an informative fused image. A few attempts have been made in recent years to jointly realize image fusion and super-resolution. However, in real-world applications such as military reconnaissance and long-range detection missions, the target and background structures in multimodal images are easily corrupted, with low resolution and weak semantic information, which leads to suboptimal results in current fusion techniques. In response, we propose FS-Diff, a semantic guidance and clarity-aware joint image fusion and super-resolution method. FS-Diff unifies image fusion and super-resolution as a conditional generation problem. It leverages semantic guidance from the proposed clarity sensing mechanism for adaptive low-resolution perception and cross-modal feature extraction. Specifically, we initialize the desired fused result as pure Gaussian noise and introduce the bidirectional feature Mamba to extract the global features of the multimodal images. Moreover, utilizing the source images and semantics as conditions, we implement a random iterative denoising process via a modified U-Net network. This network istrained for denoising at multiple noise levels to produce high-resolution fusion results with cross-modal features and abundant semantic information. We also construct a powerful aerial view multiscene (AVMS) benchmark covering 600 pairs of images. Extensive joint image fusion and super-resolution experiments on six public and our AVMS datasets demonstrated that FS-Diff outperforms the state-of-the-art methods at multiple magnifications and can recover richer details and semantics in the fused images. The code is available at https://github.com/XylonXu01/FS-Diff.
- Abstract(参考訳): 影響のある情報融合と低レベルの視覚技術として、画像融合はソース画像からの相補的な情報を統合し、情報融合画像を生成する。
近年、画像融合と超解像を共同で実現する試みがいくつか行われている。
しかし、軍事偵察や長距離検出ミッションのような現実世界の応用では、マルチモーダル画像のターゲット構造と背景構造が容易に破損し、解像度が低く、セマンティック情報が弱くなり、現在の核融合技術における準最適結果をもたらす。
そこで我々は,FS-Diffを提案する。FS-Diffは,意味的ガイダンスと明瞭性を考慮した関節画像融合と超解像法である。
FS-Diffは条件生成問題として画像融合と超解像を統一する。
提案した明瞭度検出機構のセマンティックガイダンスを利用して,適応的低分解能知覚とクロスモーダル特徴抽出を行う。
具体的には、目的とする融合結果を純粋なガウス雑音として初期化し、マルチモーダル画像のグローバルな特徴を抽出するための双方向特徴であるMambaを導入する。
さらに,ソースコードとセマンティクスを条件として,修正されたU-Netネットワークを介してランダムな反復的復調処理を実装した。
このネットワークは、複数のノイズレベルをデノナイズして、クロスモーダル特徴と豊富な意味情報を備えた高分解能融合結果を生成するために訓練されている。
また,600対の画像をカバーする強力な空中ビューマルチシーン (AVMS) ベンチマークを構築した。
AVMSデータセットと6つの共同画像融合と超解像実験により、FS-Diffは複数の倍率で最先端の手法より優れ、融合した画像のよりリッチな詳細や意味を復元できることを示した。
コードはhttps://github.com/XylonXu01/FS-Diffで公開されている。
関連論文リスト
- DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Multi-scale Adaptive Fusion Network for Hyperspectral Image Denoising [35.491878332394265]
マルチスケール・アダプティブ・フュージョン・ネットワーク(MAFNet)を用いたHSI復調手法を提案する。
提案したMAFNetは、他の最先端技術よりも性能が向上している。
論文 参考訳(メタデータ) (2023-04-19T02:00:21Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。