論文の概要: Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions
- arxiv url: http://arxiv.org/abs/2107.11585v1
- Date: Sat, 24 Jul 2021 11:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 07:57:09.852834
- Title: Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions
- Title(参考訳): 2つのドラゴン:マルチモーダル・フュージョンとクロスモーダル・トランザクション
- Authors: Rupak Bose, Shivam Pande, Biplab Banerjee
- Abstract要約: 本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
- 参考スコア(独自算出の注目度): 14.700807572189412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the field of remote sensing is evolving, we witness the accumulation of
information from several modalities, such as multispectral (MS), hyperspectral
(HSI), LiDAR etc. Each of these modalities possess its own distinct
characteristics and when combined synergistically, perform very well in the
recognition and classification tasks. However, fusing multiple modalities in
remote sensing is cumbersome due to highly disparate domains. Furthermore, the
existing methods do not facilitate cross-modal interactions. To this end, we
propose a novel transformer based fusion method for HSI and LiDAR modalities.
The model is composed of stacked auto encoders that harness the cross key-value
pairs for HSI and LiDAR, thus establishing a communication between the two
modalities, while simultaneously using the CNNs to extract the spectral and
spatial information from HSI and LiDAR. We test our model on Houston (Data
Fusion Contest - 2013) and MUUFL Gulfport datasets and achieve competitive
results.
- Abstract(参考訳): リモートセンシングの分野が発展するにつれて、マルチスペクトル(MS)、ハイパースペクトル(HSI)、LiDAR(LiDAR)など、様々なモードからの情報の蓄積が見られた。
これらのモダリティはそれぞれ独自の特性を持ち、相乗的に組み合わせると、認識と分類のタスクで非常によく機能する。
しかし, リモートセンシングにおける多重モードの活用は, ドメインの相違が大きいため煩雑である。
さらに、既存の手法ではクロスモーダル相互作用が容易ではない。
そこで本研究では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー-値ペアを利用するスタックされたオートエンコーダで構成されており、同時にCNNを使用して、HSIとLiDARからスペクトルと空間情報を抽出しながら、2つのモダリティ間の通信を確立する。
私たちは、ヒューストン(data fusion contest - 2013)とmuufl gulfportデータセットでモデルをテストし、競争力のある結果を得る。
関連論文リスト
- FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multimodal Hyperspectral Image Classification via Interconnected Fusion [12.41850641917384]
The Interconnect Fusion (IF) framework is proposed to explore the relationship across HSI and LiDAR modalities comprehensively。
トレント、MUUFL、ヒューストンの3つの広く使われているデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-04-02T09:46:13Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - A novel multimodal fusion network based on a joint coding model for lane
line segmentation [22.89466867866239]
本稿では,情報理論の観点から新しいマルチモーダル融合アーキテクチャを提案する。
LiDARカメラ融合ネットワークを用いた実用性を発揮します。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
論文 参考訳(メタデータ) (2021-03-20T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。