論文の概要: SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2411.10679v3
- Date: Wed, 24 Sep 2025 12:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 14:09:11.11256
- Title: SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion
- Title(参考訳): SMLNet:赤外線と可視画像融合のためのSPDマニフォールド学習ネットワーク
- Authors: Huan Kang, Hui Li, Tianyang Xu, Xiao-Jun Wu, Rui Wang, Chunyang Cheng, Josef Kittler,
- Abstract要約: マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。
我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 60.18614468818683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Euclidean representation learning methods have achieved promising results in image fusion tasks, which can be attributed to their clear advantages in handling with linear space. However, data collected from a realistic scene usually has a non-Euclidean structure, evaluating the consistency of latent representations from paired views using Euclidean distance raises challenges. To address this issue, a novel SPD (symmetric positive definite) manifold learning is proposed for multi-modal image fusion, named SMLNet, which extends the image fusion approach from the Euclidean space to the SPD manifolds. Specifically, we encode images according to the Riemannian geometry to exploit their intrinsic statistical correlations, thereby aligning with human visual perception. The SPD matrix fundamentally underpins our network's learning process. Building upon this mathematical foundation, we employ a cross-modal fusion strategy to exploit modality-specific dependencies and augment complementary information. To capture semantic similarity in images' intrinsic space, we further develop an attention module that meticulously processes the cross-modal semantic affinity matrix. Based on this, we design an end-to-end fusion network based on cross-modal manifold learning. Extensive experiments on public datasets demonstrate that our framework exhibits superior performance compared to the current state-of-the-art methods. Our code will be publicly available at https://github.com/Shaoyun2023.
- Abstract(参考訳): ユークリッド表現学習法は画像融合タスクにおいて有望な結果を得た。
しかしながら、現実的なシーンから収集されたデータは、通常、非ユークリッド構造を持ち、ユークリッド距離を用いてペア化されたビューから潜在表現の一貫性を評価することは、課題を提起する。
この問題に対処するために、ユークリッド空間からSPD多様体への画像融合アプローチを拡張するマルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習(SMLNet)を提案する。
具体的には、リーマン幾何学に基づく画像のエンコードを行い、その内在的な統計的相関を利用して、人間の視覚知覚と整合する。
SPD行列は、ネットワークの学習プロセスの根底にある。
この数学的基盤を基盤として,モダリティ依存の活用と相補的情報の拡張にモーダル融合戦略を採用している。
画像の固有空間におけるセマンティックな類似性を捉えるために,さらに注意モジュールを開発し,モーダルなセマンティック親和性行列を巧みに処理する。
そこで我々は,クロスモーダルな多様体学習に基づくエンドツーエンドの融合ネットワークを設計する。
公開データセットに関する大規模な実験により、我々のフレームワークは現在の最先端手法よりも優れた性能を示すことが示された。
私たちのコードはhttps://github.com/Shaoyun2023.comで公開されます。
関連論文リスト
- SupScene: Learning Overlap-Aware Global Descriptor for Unconstrained SfM [10.006619357851843]
SupSceneは、Structure-from-Motion(SfM)に類似した幾何学的性質の重なり合う画像対を見つけるのに適した、グローバルな記述子を学習する新しいソリューションである。
提案手法は,NetVLADを著しく上回りながら,トレーニング可能なパラメータを無数に導入し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-01-17T06:28:47Z) - MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation [43.62940654606311]
画像融合とセマンティックセグメンテーションのための統合ネットワークを提案する。
画像融合のセマンティック・アウェア機能を高めるための異種機能融合戦略を考案する。
フレームワーク内では,マルチステージトランスフォーマーデコーダを設計し,より微細なマルチスケールフューズされた特徴を効率的に集約する。
論文 参考訳(メタデータ) (2025-09-15T11:55:55Z) - GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion [33.925249998725896]
赤外線および可視光融合のためのグラスマン多様体に基づく新しいアテンション機構を提案する。
提案手法はグラスマン多様体上の射影制約を通した低ランク部分空間写像を構成する。
これにより、特徴を高周波詳細(局所低ランク)と低周波数意味論(グローバル低ランク)に分離せざるを得ない。
論文 参考訳(メタデータ) (2025-06-17T10:32:05Z) - A Novel Riemannian Sparse Representation Learning Network for Polarimetric SAR Image Classification [38.99026406524827]
提案するネットワークはSparse Representation (SR) 誘導深層学習モデルであり,共分散行列を直接ネットワーク入力として利用することができる。
実際の3つのPolSARデータセットの実験により,提案手法は最先端技術を超え,正確なエッジの詳細と適切な領域の均一性を保証している。
論文 参考訳(メタデータ) (2025-02-21T08:50:39Z) - Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion [25.140475569677758]
マルチモーダル画像融合は、様々なモーダルからの情報を総合的な画像を得るために統合することを目的としている。
既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。
本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題の有意な差異を論じる。
論文 参考訳(メタデータ) (2024-11-15T08:36:24Z) - MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。
既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。
本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文 参考訳(メタデータ) (2024-04-27T01:35:21Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Riemannian Self-Attention Mechanism for SPD Networks [34.794770395408335]
本稿では,SPD多様体自己アテンション機構(SMSA)を提案する。
構造化表現の識別を改善するためにSMSAベースの幾何学習モジュール(SMSA-GL)を設計する。
論文 参考訳(メタデータ) (2023-11-28T12:34:46Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - Adaptive Log-Euclidean Metrics for SPD Matrix Learning [73.12655932115881]
広く使われているログユークリッド計量(LEM)を拡張した適応ログユークリッド計量(ALEM)を提案する。
実験および理論的結果から,SPDニューラルネットワークの性能向上における提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-03-26T18:31:52Z) - SDFEst: Categorical Pose and Shape Estimation of Objects from RGB-D
using Signed Distance Fields [5.71097144710995]
RGB-D画像からのオブジェクトのポーズと形状推定のためのモジュールパイプラインを提案する。
生成型形状モデルと新しいネットワークを統合して,単一または複数ビューからの6次元ポーズと形状推定を可能にする。
我々は、合成データと実データの両方に関するいくつかの実験において、最先端手法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2022-07-11T13:53:50Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - Collaborative Representation for SPD Matrices with Application to
Image-Set Classification [12.447073442122468]
協調表現に基づく分類(CRC)はここ数年で顕著な進歩を遂げている。
既存のCRC法では非線形変動情報を直接処理することができない。
最近の進歩は、これらの非線形変動情報を効果的にモデル化し、不変表現を学習する方法がオープンな課題であることを示している。
論文 参考訳(メタデータ) (2022-01-22T04:56:53Z) - Deep Optimal Transport for Domain Adaptation on SPD Manifolds [9.552869120136005]
ニューロイメージングデータは、対称性と正の定性という数学的性質を持っている。
従来の領域適応法の適用は、これらの数学的性質が破壊される可能性があるため、困難である。
本稿では,境界分布と条件分布の差分を管理するための幾何学的深層学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-15T03:13:02Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。