論文の概要: Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2406.17679v1
- Date: Tue, 25 Jun 2024 16:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:41:09.734959
- Title: Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation
- Title(参考訳): HSI-Xセマンティックセマンティックセグメンテーションのための局所-Globalクロスモーダルアテンション-アウェアフュージョン
- Authors: Xuming Zhang, Naoto Yokoya, Xingfa Gu, Qingjiu Tian, Lorenzo Bruzzone,
- Abstract要約: HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 19.461033552684576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperspectral image (HSI) classification has recently reached its performance bottleneck. Multimodal data fusion is emerging as a promising approach to overcome this bottleneck by providing rich complementary information from the supplementary modality (X-modality). However, achieving comprehensive cross-modal interaction and fusion that can be generalized across different sensing modalities is challenging due to the disparity in imaging sensors, resolution, and content of different modalities. In this study, we propose a Local-to-Global Cross-modal Attention-aware Fusion (LoGoCAF) framework for HSI-X classification that jointly considers efficiency, accuracy, and generalizability. LoGoCAF adopts a pixel-to-pixel two-branch semantic segmentation architecture to learn information from HSI and X modalities. The pipeline of LoGoCAF consists of a local-to-global encoder and a lightweight multilayer perceptron (MLP) decoder. In the encoder, convolutions are used to encode local and high-resolution fine details in shallow layers, while transformers are used to integrate global and low-resolution coarse features in deeper layers. The MLP decoder aggregates information from the encoder for feature fusion and prediction. In particular, two cross-modality modules, the feature enhancement module (FEM) and the feature interaction and fusion module (FIFM), are introduced in each encoder stage. The FEM is used to enhance complementary information by combining the feature from the other modality across direction-aware, position-sensitive, and channel-wise dimensions. With the enhanced features, the FIFM is designed to promote cross-modality information interaction and fusion for the final semantic prediction. Extensive experiments demonstrate that our LoGoCAF achieves superior performance and generalizes well. The code will be made publicly available.
- Abstract(参考訳): ハイパースペクトル画像(HSI)分類は、最近パフォーマンスボトルネックに達した。
補足的モダリティ(X-モダリティ)から豊富な補完情報を提供することにより、このボトルネックを克服するための有望なアプローチとしてマルチモーダルデータ融合が出現している。
しかし, 画像センサの相違, 解像度, モダリティの相違により, 様々な感覚モダリティにまたがる包括的相互モーダル相互作用と融合の実現は困難である。
本研究では,効率,精度,一般化性を両立するHSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
LoGoCAFのパイプラインは、ローカル-グローバルエンコーダと軽量多層パーセプトロン(MLP)デコーダで構成される。
エンコーダにおいて、畳み込みは浅層における局所的および高解像度の細部を符号化するために使用され、トランスフォーマーはより深い層においてグローバルおよび低解像度の粗い特徴を統合するために使用される。
MLPデコーダは、特徴融合および予測のためにエンコーダから情報を集約する。
特に、各エンコーダ段階では、FEM(Feature enhancement Module)とFIFM(Feature Interaction and fusion Module)の2つのモジュールが導入された。
FEMは、方向認識、位置感受性、チャネルワイドといった他のモードからの特徴を組み合わせることで、補完情報を強化するために使用される。
拡張された特徴により、FIFMは、最終的な意味予測のために、モダリティ間の情報相互作用と融合を促進するように設計されている。
我々のLoGoCAFは優れた性能を示し、一般化する。
コードは公開されます。
関連論文リスト
- CoMiX: Cross-Modal Fusion with Deformable Convolutions for HSI-X Semantic Segmentation [10.26122715098048]
CoMiXは非対称エンコーダデコーダアーキテクチャであり、HSI-Xセマンティックセマンティックセグメンテーションのための変形可能な畳み込み(DCN)を備えている。
CoMiXは、HSIおよびXデータから情報を抽出し、校正し、ヒューズするように設計されている。
論文 参考訳(メタデータ) (2024-11-13T21:00:28Z) - Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion [9.098711843118629]
本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。
本手法は、クロス2Dスキャン(CS2D)を用いて、複数の方向からグローバル情報をフルにキャプチャする、クロス走査型視覚状態空間ブロック(CVSSBlock)を設計する。
ローカル情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために畳み込みニューラルネットワークのブランチを組み込むことにより、このアプローチはグローバル機能とローカル機能の両方の包括的な分析を促進する。
論文 参考訳(メタデータ) (2024-10-08T02:17:38Z) - Attention-Guided Multi-scale Interaction Network for Face Super-Resolution [46.42710591689621]
CNNとTransformerハイブリッドネットワークは、顔超解像(FSR)タスクにおいて優れた性能を示した。
マルチスケール機能を融合し、それらの相補性を促進する方法は、FSRの強化に不可欠である。
私たちの設計では、モジュール内およびエンコーダとデコーダ間のマルチスケール機能のフリーフローを可能にします。
論文 参考訳(メタデータ) (2024-09-01T02:53:24Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image
Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。
BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。
LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文 参考訳(メタデータ) (2024-02-13T21:03:36Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Attention guided global enhancement and local refinement network for
semantic segmentation [5.881350024099048]
エンコーダ・デコーダアーキテクチャを用いて,軽量なセマンティックセマンティックセマンティクスネットワークを開発した。
高レベル特徴マップからグローバル情報を集約するグローバルエンハンスメント手法を提案する。
ローカルリファインメントモジュールは、デコーダ機能をセマンティックガイダンスとして利用することによって開発される。
この2つの手法はContext Fusion Blockに統合され、それに基づいてAttention Guided Global enhancement and Local refinement Network (AGLN) が精巧に設計されている。
論文 参考訳(メタデータ) (2022-04-09T02:32:24Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。