論文の概要: GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2506.14384v1
- Date: Tue, 17 Jun 2025 10:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.428522
- Title: GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion
- Title(参考訳): GrFormer: 赤外線および可視画像融合のためのグラスマンマニフォールド上の新しい変換器
- Authors: Huan Kang, Hui Li, Xiao-Jun Wu, Tianyang Xu, Rui Wang, Chunyang Cheng, Josef Kittler,
- Abstract要約: 赤外線および可視光融合のためのグラスマン多様体に基づく新しいアテンション機構を提案する。
提案手法はグラスマン多様体上の射影制約を通した低ランク部分空間写像を構成する。
これにより、特徴を高周波詳細(局所低ランク)と低周波数意味論(グローバル低ランク)に分離せざるを得ない。
- 参考スコア(独自算出の注目度): 33.925249998725896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of image fusion, promising progress has been made by modeling data from different modalities as linear subspaces. However, in practice, the source images are often located in a non-Euclidean space, where the Euclidean methods usually cannot encapsulate the intrinsic topological structure. Typically, the inner product performed in the Euclidean space calculates the algebraic similarity rather than the semantic similarity, which results in undesired attention output and a decrease in fusion performance. While the balance of low-level details and high-level semantics should be considered in infrared and visible image fusion task. To address this issue, in this paper, we propose a novel attention mechanism based on Grassmann manifold for infrared and visible image fusion (GrFormer). Specifically, our method constructs a low-rank subspace mapping through projection constraints on the Grassmann manifold, compressing attention features into subspaces of varying rank levels. This forces the features to decouple into high-frequency details (local low-rank) and low-frequency semantics (global low-rank), thereby achieving multi-scale semantic fusion. Additionally, to effectively integrate the significant information, we develop a cross-modal fusion strategy (CMS) based on a covariance mask to maximise the complementary properties between different modalities and to suppress the features with high correlation, which are deemed redundant. The experimental results demonstrate that our network outperforms SOTA methods both qualitatively and quantitatively on multiple image fusion benchmarks. The codes are available at https://github.com/Shaoyun2023.
- Abstract(参考訳): 画像融合の分野では、異なるモードのデータを線形部分空間としてモデル化することで、有望な進歩が達成されている。
しかし、実際には、ソース画像はユークリッドではない空間にあり、ユークリッド法は通常固有位相構造をカプセル化できない。
通常、ユークリッド空間で実行される内部積は意味的類似性よりも代数的類似性を計算し、望ましくない注意出力と融合性能の低下をもたらす。
低レベルの詳細と高レベルのセマンティクスのバランスは、赤外線および可視画像融合タスクにおいて考慮すべきである。
本稿では,赤外・可視画像融合(GrFormer)のためのグラスマン多様体に基づく新しいアテンション機構を提案する。
具体的には、グラスマン多様体上の射影制約を通した低ランク部分空間の写像を構築し、注目特徴を様々なランクレベルの部分空間に圧縮する。
これにより、特徴を高周波詳細(ローカル低ランク)と低周波数意味論(グローバル低ランク)に分離させ、多スケールな意味融合を実現する。
さらに,これらの重要な情報を効果的に統合するために,共分散マスクをベースとしたクロスモーダル融合戦略(CMS)を開発し,異なるモーダル間の相補的特性を最大化し,高い相関性を有する特徴を抑圧する。
実験の結果,複数の画像融合ベンチマークにおいて,ネットワークがSOTA法よりも質的に,定量的に優れていることが示された。
コードはhttps://github.com/Shaoyun2023で公開されている。
関連論文リスト
- A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification [5.381099682416992]
マルチスペクトル (MS) とパンクロマティック (PAN) の画像は同じ陸面を描いている。
これらの類似した情報とそれぞれの利点を分離するために、融合段階における特徴冗長性を減少させる。
本稿では,マルチモーダルリモートセンシング画像分類のための拡散注意状態空間融合モデル(DAS2F-Model)を提案する。
論文 参考訳(メタデータ) (2025-04-23T12:34:32Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
本稿では、相関駆動型分解特徴のモデル化と高レベルグラフ表現の理由について論じる。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。
既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。
本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文 参考訳(メタデータ) (2024-04-27T01:35:21Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。