論文の概要: Incomplete Multimodal Learning for Remote Sensing Data Fusion
- arxiv url: http://arxiv.org/abs/2304.11381v1
- Date: Sat, 22 Apr 2023 12:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:49:43.483910
- Title: Incomplete Multimodal Learning for Remote Sensing Data Fusion
- Title(参考訳): リモートセンシングデータ融合のための不完全マルチモーダル学習
- Authors: Yuxing Chen, Maofan Zhao, Lorenzo Bruzzone
- Abstract要約: 遠隔センシングデータ融合タスクにおけるマルチモーダルトランスフォーマーネットワークの成功には,自己注意操作によるマルチモーダル信号の接続機構が鍵となる。
従来のアプローチでは、トレーニングと推論の両方の間、すべてのモダリティへのアクセスを前提としており、下流アプリケーションでモーダル不完全入力を扱う場合、深刻な劣化を引き起こす可能性がある。
提案手法は,リモートセンシングデータ融合の文脈において,不完全なマルチモーダル学習のための新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 12.822457129596824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mechanism of connecting multimodal signals through self-attention
operation is a key factor in the success of multimodal Transformer networks in
remote sensing data fusion tasks. However, traditional approaches assume access
to all modalities during both training and inference, which can lead to severe
degradation when dealing with modal-incomplete inputs in downstream
applications. To address this limitation, our proposed approach introduces a
novel model for incomplete multimodal learning in the context of remote sensing
data fusion. This approach can be used in both supervised and self-supervised
pretraining paradigms and leverages the additional learned fusion tokens in
combination with Bi-LSTM attention and masked self-attention mechanisms to
collect multimodal signals. The proposed approach employs reconstruction and
contrastive loss to facilitate fusion in pre-training while allowing for random
modality combinations as inputs in network training. Our approach delivers
state-of-the-art performance on two multimodal datasets for tasks such as
building instance / semantic segmentation and land-cover mapping tasks when
dealing with incomplete inputs during inference.
- Abstract(参考訳): 遠隔センシングデータ融合タスクにおけるマルチモーダルトランスフォーマーネットワークの成功には,自己注意操作によるマルチモーダル信号の接続機構が鍵となる。
しかし、従来のアプローチでは、トレーニングと推論の両方の間、全てのモダリティへのアクセスを前提としており、下流アプリケーションでモーダル不完全入力を扱う場合、深刻な劣化を引き起こす可能性がある。
この制限に対処するため,提案手法では,リモートセンシングデータ融合における不完全マルチモーダル学習の新しいモデルを導入する。
このアプローチは、教師付きおよび自己教師型事前訓練パラダイムの両方で使用することができ、Bi-LSTMの注意とマスク付き自己注意機構と組み合わせて学習された融合トークンを利用してマルチモーダル信号の収集を行う。
提案手法は,ネットワークトレーニングにおける入力としてランダムモダリティの組み合わせを許容しながら,事前学習における融合を容易にするために,再構成とコントラスト損失を用いる。
提案手法は,インスタンス/セマンティックセグメンテーションや土地被覆マッピングタスクなどのタスクに対して,推論中に不完全な入力を扱う場合の2つのマルチモーダルデータセットに対して,最先端のパフォーマンスを提供する。
関連論文リスト
- Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - Omni-Training for Data-Efficient Deep Learning [80.28715182095975]
近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。
事前訓練とメタトレーニングの厳密な組み合わせは、どちらの種類のトランスファー可能性も達成できない。
このことが提案されているOmni-Trainingフレームワークを,データ効率のよいディープラーニングに動機付けている。
論文 参考訳(メタデータ) (2021-10-14T16:30:36Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。