論文の概要: GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2506.14384v1
- Date: Tue, 17 Jun 2025 10:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.428522
- Title: GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion
- Title(参考訳): GrFormer: 赤外線および可視画像融合のためのグラスマンマニフォールド上の新しい変換器
- Authors: Huan Kang, Hui Li, Xiao-Jun Wu, Tianyang Xu, Rui Wang, Chunyang Cheng, Josef Kittler,
- Abstract要約: 赤外線および可視光融合のためのグラスマン多様体に基づく新しいアテンション機構を提案する。
提案手法はグラスマン多様体上の射影制約を通した低ランク部分空間写像を構成する。
これにより、特徴を高周波詳細(局所低ランク)と低周波数意味論(グローバル低ランク)に分離せざるを得ない。
- 参考スコア(独自算出の注目度): 33.925249998725896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of image fusion, promising progress has been made by modeling data from different modalities as linear subspaces. However, in practice, the source images are often located in a non-Euclidean space, where the Euclidean methods usually cannot encapsulate the intrinsic topological structure. Typically, the inner product performed in the Euclidean space calculates the algebraic similarity rather than the semantic similarity, which results in undesired attention output and a decrease in fusion performance. While the balance of low-level details and high-level semantics should be considered in infrared and visible image fusion task. To address this issue, in this paper, we propose a novel attention mechanism based on Grassmann manifold for infrared and visible image fusion (GrFormer). Specifically, our method constructs a low-rank subspace mapping through projection constraints on the Grassmann manifold, compressing attention features into subspaces of varying rank levels. This forces the features to decouple into high-frequency details (local low-rank) and low-frequency semantics (global low-rank), thereby achieving multi-scale semantic fusion. Additionally, to effectively integrate the significant information, we develop a cross-modal fusion strategy (CMS) based on a covariance mask to maximise the complementary properties between different modalities and to suppress the features with high correlation, which are deemed redundant. The experimental results demonstrate that our network outperforms SOTA methods both qualitatively and quantitatively on multiple image fusion benchmarks. The codes are available at https://github.com/Shaoyun2023.
- Abstract(参考訳): 画像融合の分野では、異なるモードのデータを線形部分空間としてモデル化することで、有望な進歩が達成されている。
しかし、実際には、ソース画像はユークリッドではない空間にあり、ユークリッド法は通常固有位相構造をカプセル化できない。
通常、ユークリッド空間で実行される内部積は意味的類似性よりも代数的類似性を計算し、望ましくない注意出力と融合性能の低下をもたらす。
低レベルの詳細と高レベルのセマンティクスのバランスは、赤外線および可視画像融合タスクにおいて考慮すべきである。
本稿では,赤外・可視画像融合(GrFormer)のためのグラスマン多様体に基づく新しいアテンション機構を提案する。
具体的には、グラスマン多様体上の射影制約を通した低ランク部分空間の写像を構築し、注目特徴を様々なランクレベルの部分空間に圧縮する。
これにより、特徴を高周波詳細(ローカル低ランク)と低周波数意味論(グローバル低ランク)に分離させ、多スケールな意味融合を実現する。
さらに,これらの重要な情報を効果的に統合するために,共分散マスクをベースとしたクロスモーダル融合戦略(CMS)を開発し,異なるモーダル間の相補的特性を最大化し,高い相関性を有する特徴を抑圧する。
実験の結果,複数の画像融合ベンチマークにおいて,ネットワークがSOTA法よりも質的に,定量的に優れていることが示された。
コードはhttps://github.com/Shaoyun2023で公開されている。
関連論文リスト
- Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification [5.381099682416992]
マルチスペクトル (MS) とパンクロマティック (PAN) の画像は同じ陸面を描いている。
これらの類似した情報とそれぞれの利点を分離するために、融合段階における特徴冗長性を減少させる。
本稿では,マルチモーダルリモートセンシング画像分類のための拡散注意状態空間融合モデル(DAS2F-Model)を提案する。
論文 参考訳(メタデータ) (2025-04-23T12:34:32Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
本稿では、相関駆動型分解特徴のモデル化と高レベルグラフ表現の理由について論じる。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。
既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。
本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文 参考訳(メタデータ) (2024-04-27T01:35:21Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Subspace-Based Feature Fusion From Hyperspectral And Multispectral Image
For Land Cover Classification [17.705966155216945]
画素分類のためのハイパースペクトル(HS)とマルチスペクトル(MS)画像からの特徴融合法を提案する。
提案手法は,まず形状プロファイルを用いてMS画像から空間的特徴を抽出する。
特徴融合問題を効率的に解くために、交互最適化(AO)と乗算器の交互方向法(ADMM)を組み合わせたアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-02-22T17:59:18Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。