論文の概要: Multimodal Hyperspectral Image Classification via Interconnected Fusion
- arxiv url: http://arxiv.org/abs/2304.00495v1
- Date: Sun, 2 Apr 2023 09:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:38:10.103270
- Title: Multimodal Hyperspectral Image Classification via Interconnected Fusion
- Title(参考訳): 相互融合によるマルチモーダルハイパースペクトル画像分類
- Authors: Lu Huo, Jiahao Xia, Leijie Zhang, Haimin Zhang, Min Xu
- Abstract要約: The Interconnect Fusion (IF) framework is proposed to explore the relationship across HSI and LiDAR modalities comprehensively。
トレント、MUUFL、ヒューストンの3つの広く使われているデータセットで実験が行われた。
- 参考スコア(独自算出の注目度): 12.41850641917384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multiple modality fusion methods, such as concatenation, summation,
and encoder-decoder-based fusion, have recently been employed to combine
modality characteristics of Hyperspectral Image (HSI) and Light Detection And
Ranging (LiDAR). However, these methods consider the relationship of HSI-LiDAR
signals from limited perspectives. More specifically, they overlook the
contextual information across modalities of HSI and LiDAR and the
intra-modality characteristics of LiDAR. In this paper, we provide a new
insight into feature fusion to explore the relationships across HSI and LiDAR
modalities comprehensively. An Interconnected Fusion (IF) framework is
proposed. Firstly, the center patch of the HSI input is extracted and
replicated to the size of the HSI input. Then, nine different perspectives in
the fusion matrix are generated by calculating self-attention and
cross-attention among the replicated center patch, HSI input, and corresponding
LiDAR input. In this way, the intra- and inter-modality characteristics can be
fully exploited, and contextual information is considered in both
intra-modality and inter-modality manner. These nine interrelated elements in
the fusion matrix can complement each other and eliminate biases, which can
generate a multi-modality representation for classification accurately.
Extensive experiments have been conducted on three widely used datasets:
Trento, MUUFL, and Houston. The IF framework achieves state-of-the-art results
on these datasets compared to existing approaches.
- Abstract(参考訳): 近年,HSI(Hyperspectral Image)とLiDAR(Light Detection And Ranging)のモダリティ特性を組み合わせるために,結合,和,エンコーダ-デコーダ-ベース融合などの既存のモーダル融合法が用いられている。
しかし,これらの手法は限られた視点からHSI-LiDAR信号の関係を考慮する。
より具体的には、HSIとLiDARのモダリティのコンテキスト情報とLiDARのモダリティ内特性を見落としている。
本稿では,HSIとLiDARの相互関係を包括的に探求するために,機能融合に関する新たな知見を提供する。
インターコネクトフュージョン(if)フレームワークが提案されている。
まず、HSI入力の中心パッチを抽出し、HSI入力のサイズに複製する。
そして、複製された中心パッチ、HSI入力および対応するLiDAR入力の自己アテンションと交差アテンションを算出し、融合行列の9つの異なる視点を生成する。
このようにして、モダリティ内およびモダリティ間の特徴を完全に活用することができ、モダリティ内およびモダリティ間の両方でコンテキスト情報を考慮することができる。
融合行列内のこれらの9つの相互関連要素は互いに補い合い、バイアスを取り除き、正確な分類のためにマルチモダリティ表現を生成することができる。
広く使われている3つのデータセット(Trento、MUUFL、Houston)で大規模な実験が行われた。
IFフレームワークは、既存のアプローチと比較して、これらのデータセットの最先端の結果を達成する。
関連論文リスト
- AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - A Low-rank Matching Attention based Cross-modal Feature Fusion Method
for Conversational Emotion Recognition [56.20144064187554]
本稿では,会話感情認識(CER)タスクのためのクロスモーダルな特徴融合手法を提案する。
LMAMは、一致重みを設定し、モーダル特徴列間のアテンションスコアを計算することにより、自己注意法よりも少ないパラメータを含む。
LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグ・アンド・プレイ方式で性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-16T16:02:44Z) - Decoupled Side Information Fusion for Sequential Recommendation [6.515279047538104]
シーケンスレコメンデーションのためのデカップリングサイド情報融合(DIF-SR)を提案する。
入力から注目層に側情報を移動し、様々な側情報の注意計算とアイテム表現を分離する。
提案手法は現状のSRモデルより安定して優れている。
論文 参考訳(メタデータ) (2022-04-23T10:53:36Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - A Tri-attention Fusion Guided Multi-modal Segmentation Network [2.867517731896504]
本稿では,新しい三点融合による多モードセグメンテーションネットワークを提案する。
我々のネットワークは、N個の画像ソースを持つN個のモデル非依存の符号化パス、三つのアテンション融合ブロック、二重アテンション融合ブロック、デコードパスを含む。
実験の結果,BraTS 2018データセットを用いて脳腫瘍セグメント化実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-11-02T14:36:53Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文 参考訳(メタデータ) (2021-07-24T11:33:37Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。