論文の概要: Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions
- arxiv url: http://arxiv.org/abs/2107.11585v1
- Date: Sat, 24 Jul 2021 11:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 07:57:09.852834
- Title: Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions
- Title(参考訳): 2つのドラゴン:マルチモーダル・フュージョンとクロスモーダル・トランザクション
- Authors: Rupak Bose, Shivam Pande, Biplab Banerjee
- Abstract要約: 本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
- 参考スコア(独自算出の注目度): 14.700807572189412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the field of remote sensing is evolving, we witness the accumulation of
information from several modalities, such as multispectral (MS), hyperspectral
(HSI), LiDAR etc. Each of these modalities possess its own distinct
characteristics and when combined synergistically, perform very well in the
recognition and classification tasks. However, fusing multiple modalities in
remote sensing is cumbersome due to highly disparate domains. Furthermore, the
existing methods do not facilitate cross-modal interactions. To this end, we
propose a novel transformer based fusion method for HSI and LiDAR modalities.
The model is composed of stacked auto encoders that harness the cross key-value
pairs for HSI and LiDAR, thus establishing a communication between the two
modalities, while simultaneously using the CNNs to extract the spectral and
spatial information from HSI and LiDAR. We test our model on Houston (Data
Fusion Contest - 2013) and MUUFL Gulfport datasets and achieve competitive
results.
- Abstract(参考訳): リモートセンシングの分野が発展するにつれて、マルチスペクトル(MS)、ハイパースペクトル(HSI)、LiDAR(LiDAR)など、様々なモードからの情報の蓄積が見られた。
これらのモダリティはそれぞれ独自の特性を持ち、相乗的に組み合わせると、認識と分類のタスクで非常によく機能する。
しかし, リモートセンシングにおける多重モードの活用は, ドメインの相違が大きいため煩雑である。
さらに、既存の手法ではクロスモーダル相互作用が容易ではない。
そこで本研究では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー-値ペアを利用するスタックされたオートエンコーダで構成されており、同時にCNNを使用して、HSIとLiDARからスペクトルと空間情報を抽出しながら、2つのモダリティ間の通信を確立する。
私たちは、ヒューストン(data fusion contest - 2013)とmuufl gulfportデータセットでモデルをテストし、競争力のある結果を得る。
関連論文リスト
- Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multimodal Hyperspectral Image Classification via Interconnected Fusion [12.41850641917384]
The Interconnect Fusion (IF) framework is proposed to explore the relationship across HSI and LiDAR modalities comprehensively。
トレント、MUUFL、ヒューストンの3つの広く使われているデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-04-02T09:46:13Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - A novel multimodal fusion network based on a joint coding model for lane
line segmentation [22.89466867866239]
本稿では,情報理論の観点から新しいマルチモーダル融合アーキテクチャを提案する。
LiDARカメラ融合ネットワークを用いた実用性を発揮します。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
論文 参考訳(メタデータ) (2021-03-20T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。