論文の概要: SPDFusion: An Infrared and Visible Image Fusion Network Based on a Non-Euclidean Representation of Riemannian Manifolds
- arxiv url: http://arxiv.org/abs/2411.10679v1
- Date: Sat, 16 Nov 2024 03:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:33.081417
- Title: SPDFusion: An Infrared and Visible Image Fusion Network Based on a Non-Euclidean Representation of Riemannian Manifolds
- Title(参考訳): SPDFusion: リーマン多様体の非ユークリッド表現に基づく赤外線可視画像融合ネットワーク
- Authors: Huan Kang, Hui Li, Tianyang Xu, Rui Wang, Xiao-Jun Wu, Josef Kittler,
- Abstract要約: マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習フレームワークを提案する。
我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 35.03742076163911
- License:
- Abstract: Euclidean representation learning methods have achieved commendable results in image fusion tasks, which can be attributed to their clear advantages in handling with linear space. However, data collected from a realistic scene usually have a non-Euclidean structure, where Euclidean metric might be limited in representing the true data relationships, degrading fusion performance. To address this issue, a novel SPD (symmetric positive definite) manifold learning framework is proposed for multi-modal image fusion, named SPDFusion, which extends the image fusion approach from the Euclidean space to the SPD manifolds. Specifically, we encode images according to the Riemannian geometry to exploit their intrinsic statistical correlations, thereby aligning with human visual perception. Actually, the SPD matrix underpins our network learning, with a cross-modal fusion strategy employed to harness modality-specific dependencies and augment complementary information. Subsequently, an attention module is designed to process the learned weight matrix, facilitating the weighting of spatial global correlation semantics via SPD matrix multiplication. Based on this, we design an end-to-end fusion network based on cross-modal manifold learning. Extensive experiments on public datasets demonstrate that our framework exhibits superior performance compared to the current state-of-the-art methods.
- Abstract(参考訳): ユークリッド表現学習法は画像融合タスクにおいて可換な結果を得たが、これは線形空間を扱う際の明らかな利点に起因する。
しかしながら、現実的なシーンから収集されたデータは、通常ユークリッドではない構造を持ち、ユークリッド計量は真のデータ関係を表現し、融合性能を低下させる。
この問題に対処するために、ユークリッド空間からSPD多様体への画像融合アプローチを拡張するマルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習フレームワークSPDFusionを提案する。
具体的には、リーマン幾何学に基づく画像のエンコードを行い、その内在的な統計的相関を利用して、人間の視覚知覚と整合する。
実際、SPD行列は、モダリティ固有の依存関係を活用し、補完的な情報を強化するために、モダリティ間の融合戦略を用いて、ネットワーク学習の基盤となる。
その後、学習した重み行列を処理するためにアテンションモジュールが設計され、SPD行列乗算による空間的大域的相関意味論の重み付けを容易にする。
そこで我々は,クロスモーダルな多様体学習に基づくエンドツーエンドの融合ネットワークを設計する。
公開データセットに関する大規模な実験により、我々のフレームワークは現在の最先端手法よりも優れた性能を示すことが示された。
関連論文リスト
- MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。
既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。
本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文 参考訳(メタデータ) (2024-04-27T01:35:21Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Riemannian Self-Attention Mechanism for SPD Networks [34.794770395408335]
本稿では,SPD多様体自己アテンション機構(SMSA)を提案する。
構造化表現の識別を改善するためにSMSAベースの幾何学習モジュール(SMSA-GL)を設計する。
論文 参考訳(メタデータ) (2023-11-28T12:34:46Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - Adaptive Log-Euclidean Metrics for SPD Matrix Learning [73.12655932115881]
広く使われているログユークリッド計量(LEM)を拡張した適応ログユークリッド計量(ALEM)を提案する。
実験および理論的結果から,SPDニューラルネットワークの性能向上における提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-03-26T18:31:52Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - Collaborative Representation for SPD Matrices with Application to
Image-Set Classification [12.447073442122468]
協調表現に基づく分類(CRC)はここ数年で顕著な進歩を遂げている。
既存のCRC法では非線形変動情報を直接処理することができない。
最近の進歩は、これらの非線形変動情報を効果的にモデル化し、不変表現を学習する方法がオープンな課題であることを示している。
論文 参考訳(メタデータ) (2022-01-22T04:56:53Z) - Deep Optimal Transport for Domain Adaptation on SPD Manifolds [9.552869120136005]
ニューロイメージングデータは、対称性と正の定性という数学的性質を持っている。
従来の領域適応法の適用は、これらの数学的性質が破壊される可能性があるため、困難である。
本稿では,境界分布と条件分布の差分を管理するための幾何学的深層学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-15T03:13:02Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。