論文の概要: Are Multimodal Transformers Robust to Missing Modality?
- arxiv url: http://arxiv.org/abs/2204.05454v1
- Date: Tue, 12 Apr 2022 00:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:15:52.999629
- Title: Are Multimodal Transformers Robust to Missing Modality?
- Title(参考訳): マルチモーダルトランスフォーマーはモダリティを損なうのか?
- Authors: Mengmeng Ma, Jian Ren, Long Zhao, Davide Testuggine, Xi Peng
- Abstract要約: 本稿では,Transformerモデルが欠落したモーダルデータに対して自然に堅牢であるかどうかを検討する。
トランスフォーマーモデルではモダリティの欠如に敏感であり、異なるモーダル融合戦略はロバスト性に大きな影響を与える。
本稿では,最適な融合戦略を自動探索することで,トランスフォーマーモデルのロバスト性を向上する原理的手法を提案する。
- 参考スコア(独自算出の注目度): 17.784783063851133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal data collected from the real world are often imperfect due to
missing modalities. Therefore multimodal models that are robust against
modal-incomplete data are highly preferred. Recently, Transformer models have
shown great success in processing multimodal data. However, existing work has
been limited to either architecture designs or pre-training strategies; whether
Transformer models are naturally robust against missing-modal data has rarely
been investigated. In this paper, we present the first-of-its-kind work to
comprehensively investigate the behavior of Transformers in the presence of
modal-incomplete data. Unsurprising, we find Transformer models are sensitive
to missing modalities while different modal fusion strategies will
significantly affect the robustness. What surprised us is that the optimal
fusion strategy is dataset dependent even for the same Transformer model; there
does not exist a universal strategy that works in general cases. Based on these
findings, we propose a principle method to improve the robustness of
Transformer models by automatically searching for an optimal fusion strategy
regarding input data. Experimental validations on three benchmarks support the
superior performance of the proposed method.
- Abstract(参考訳): 実世界から収集されたマルチモーダルデータは、しばしばモダリティの欠如により不完全である。
したがって、モーダル不完全データに対して頑健なマルチモーダルモデルが非常に好まれる。
近年,Transformerモデルはマルチモーダルデータ処理において大きな成功を収めている。
しかし、既存の作業はアーキテクチャ設計か事前学習戦略に限られており、Transformerモデルが欠落したモーダルデータに対して自然に堅牢であるかどうかはほとんど調査されていない。
本稿では,モーダル不完全データの存在下でのトランスフォーマーの挙動を包括的に調査する。
当然ながら、トランスフォーマーモデルは欠落したモダリティに敏感であり、異なるモーダル核融合戦略はロバスト性に大きく影響する。
私たちが驚いたのは、最適な融合戦略が同じトランスフォーマーモデルでもデータセットに依存することだ。
これらの結果に基づいて,入力データに関する最適な融合戦略を自動探索することで,トランスフォーマーモデルの堅牢性を向上させるための基本手法を提案する。
3つのベンチマーク実験により,提案手法の優れた性能が得られた。
関連論文リスト
- Sampling Foundational Transformer: A Theoretical Perspective [12.7600763629179]
本稿では,複数のデータモダリティを扱える基本サンプリング変換器(SFT)を提案する。
SFTは多くのベンチマークで競合する結果を得たが、他の非常に特殊なモデルに比べて推論が速い。
論文 参考訳(メタデータ) (2024-08-11T16:53:09Z) - FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [29.130355774088205]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。
多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
論文 参考訳(メタデータ) (2024-02-05T17:37:46Z) - Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities [56.666806962214565]
我々は,他のモダリティからの無関係なデータを用いて,特定のモダリティのトランスフォーマーを改善することを提案する。
我々は、他のモダリティのデータで訓練された補助変圧器を使用し、2つのモデルのコンポーネントを接続するための経路を構築している。
我々は、他のモダリティの無関係なデータを用いて、顕著で一貫したパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-01-25T18:59:58Z) - Missing-modality Enabled Multi-modal Fusion Architecture for Medical
Data [8.472576865966744]
マルチモーダルデータを融合することで、ディープラーニングモデルの性能を向上させることができる。
欠失モダリティは、患者の特異性によって医療データに共通する。
本研究では、欠落したモダリティに対して堅牢な医療データのための効率的なマルチモーダル融合アーキテクチャを開発した。
論文 参考訳(メタデータ) (2023-09-27T09:46:07Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。