Fugu-MT 論文翻訳(概要): Multimodal Hyperspectral Image Classification via Interconnected Fusion

論文の概要: Multimodal Hyperspectral Image Classification via Interconnected Fusion

arxiv url: http://arxiv.org/abs/2304.00495v1
Date: Sun, 2 Apr 2023 09:46:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 17:38:10.103270
Title: Multimodal Hyperspectral Image Classification via Interconnected Fusion
Title（参考訳）: 相互融合によるマルチモーダルハイパースペクトル画像分類
Authors: Lu Huo, Jiahao Xia, Leijie Zhang, Haimin Zhang, Min Xu
Abstract要約: The Interconnect Fusion (IF) framework is proposed to explore the relationship across HSI and LiDAR modalities comprehensively。トレント、MUUFL、ヒューストンの3つの広く使われているデータセットで実験が行われた。
参考スコア（独自算出の注目度）: 12.41850641917384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing multiple modality fusion methods, such as concatenation, summation, and encoder-decoder-based fusion, have recently been employed to combine modality characteristics of Hyperspectral Image (HSI) and Light Detection And Ranging (LiDAR). However, these methods consider the relationship of HSI-LiDAR signals from limited perspectives. More specifically, they overlook the contextual information across modalities of HSI and LiDAR and the intra-modality characteristics of LiDAR. In this paper, we provide a new insight into feature fusion to explore the relationships across HSI and LiDAR modalities comprehensively. An Interconnected Fusion (IF) framework is proposed. Firstly, the center patch of the HSI input is extracted and replicated to the size of the HSI input. Then, nine different perspectives in the fusion matrix are generated by calculating self-attention and cross-attention among the replicated center patch, HSI input, and corresponding LiDAR input. In this way, the intra- and inter-modality characteristics can be fully exploited, and contextual information is considered in both intra-modality and inter-modality manner. These nine interrelated elements in the fusion matrix can complement each other and eliminate biases, which can generate a multi-modality representation for classification accurately. Extensive experiments have been conducted on three widely used datasets: Trento, MUUFL, and Houston. The IF framework achieves state-of-the-art results on these datasets compared to existing approaches.
Abstract（参考訳）: 近年,HSI(Hyperspectral Image)とLiDAR(Light Detection And Ranging)のモダリティ特性を組み合わせるために,結合,和,エンコーダ-デコーダ-ベース融合などの既存のモーダル融合法が用いられている。しかし,これらの手法は限られた視点からHSI-LiDAR信号の関係を考慮する。より具体的には、HSIとLiDARのモダリティのコンテキスト情報とLiDARのモダリティ内特性を見落としている。本稿では,HSIとLiDARの相互関係を包括的に探求するために,機能融合に関する新たな知見を提供する。インターコネクトフュージョン(if)フレームワークが提案されている。まず、HSI入力の中心パッチを抽出し、HSI入力のサイズに複製する。そして、複製された中心パッチ、HSI入力および対応するLiDAR入力の自己アテンションと交差アテンションを算出し、融合行列の9つの異なる視点を生成する。このようにして、モダリティ内およびモダリティ間の特徴を完全に活用することができ、モダリティ内およびモダリティ間の両方でコンテキスト情報を考慮することができる。融合行列内のこれらの9つの相互関連要素は互いに補い合い、バイアスを取り除き、正確な分類のためにマルチモダリティ表現を生成することができる。広く使われている3つのデータセット(Trento、MUUFL、Houston)で大規模な実験が行われた。 IFフレームワークは、既存のアプローチと比較して、これらのデータセットの最先端の結果を達成する。

関連論文リスト

Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。本稿では,Co-AttenDWGを提案する。我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文参考訳（メタデータ） (2025-05-25T07:26:00Z)
MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction [15.656771219382076]
MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
論文参考訳（メタデータ） (2025-04-22T13:33:26Z)
Multimodal Outer Arithmetic Block Dual Fusion of Whole Slide Images and Omics Data for Precision Oncology [6.634579989129392]
本稿では,オミックデータを早期と後期の両方で統合する2重融合フレームワークを提案する。初期の融合段階では、オミック埋め込みはパッチワイドの潜伏空間に投影され、オミック-WSI埋め込みを生成する。後期核融合期には、スライドレベルのOmic-WSI埋め込みを融合することにより、オミックデータを再導入する。
論文参考訳（メタデータ） (2024-11-26T13:25:53Z)
How Intermodal Interaction Affects the Performance of Deep Multimodal Fusion for Mixed-Type Time Series [3.6958071416494414]
MTTS(Mixed-type Time Series)は、医療、金融、環境モニタリング、ソーシャルメディアなど、多くの分野で一般的なバイモーダルデータである。マルチモーダル融合による両モードの統合はMTTSの処理において有望なアプローチである。 MTTS予測のための深層多モード融合手法の総合評価を行った。
論文参考訳（メタデータ） (2024-06-21T12:26:48Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。 We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文参考訳（メタデータ） (2024-04-14T05:28:46Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文参考訳（メタデータ） (2024-02-27T13:08:47Z)
Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。 BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文参考訳（メタデータ） (2023-06-29T03:02:20Z)
A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。 LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文参考訳（メタデータ） (2023-06-16T16:02:44Z)
A Tri-attention Fusion Guided Multi-modal Segmentation Network [2.867517731896504]
本稿では,新しい三点融合による多モードセグメンテーションネットワークを提案する。我々のネットワークは、N個の画像ソースを持つN個のモデル非依存の符号化パス、三つのアテンション融合ブロック、二重アテンション融合ブロック、デコードパスを含む。実験の結果,BraTS 2018データセットを用いて脳腫瘍セグメント化実験を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-11-02T14:36:53Z)
Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文参考訳（メタデータ） (2021-07-24T11:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。