論文の概要: Are Multimodal Transformers Robust to Missing Modality?
- arxiv url: http://arxiv.org/abs/2204.05454v1
- Date: Tue, 12 Apr 2022 00:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:15:52.999629
- Title: Are Multimodal Transformers Robust to Missing Modality?
- Title(参考訳): マルチモーダルトランスフォーマーはモダリティを損なうのか?
- Authors: Mengmeng Ma, Jian Ren, Long Zhao, Davide Testuggine, Xi Peng
- Abstract要約: 本稿では,Transformerモデルが欠落したモーダルデータに対して自然に堅牢であるかどうかを検討する。
トランスフォーマーモデルではモダリティの欠如に敏感であり、異なるモーダル融合戦略はロバスト性に大きな影響を与える。
本稿では,最適な融合戦略を自動探索することで,トランスフォーマーモデルのロバスト性を向上する原理的手法を提案する。
- 参考スコア(独自算出の注目度): 17.784783063851133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal data collected from the real world are often imperfect due to
missing modalities. Therefore multimodal models that are robust against
modal-incomplete data are highly preferred. Recently, Transformer models have
shown great success in processing multimodal data. However, existing work has
been limited to either architecture designs or pre-training strategies; whether
Transformer models are naturally robust against missing-modal data has rarely
been investigated. In this paper, we present the first-of-its-kind work to
comprehensively investigate the behavior of Transformers in the presence of
modal-incomplete data. Unsurprising, we find Transformer models are sensitive
to missing modalities while different modal fusion strategies will
significantly affect the robustness. What surprised us is that the optimal
fusion strategy is dataset dependent even for the same Transformer model; there
does not exist a universal strategy that works in general cases. Based on these
findings, we propose a principle method to improve the robustness of
Transformer models by automatically searching for an optimal fusion strategy
regarding input data. Experimental validations on three benchmarks support the
superior performance of the proposed method.
- Abstract(参考訳): 実世界から収集されたマルチモーダルデータは、しばしばモダリティの欠如により不完全である。
したがって、モーダル不完全データに対して頑健なマルチモーダルモデルが非常に好まれる。
近年,Transformerモデルはマルチモーダルデータ処理において大きな成功を収めている。
しかし、既存の作業はアーキテクチャ設計か事前学習戦略に限られており、Transformerモデルが欠落したモーダルデータに対して自然に堅牢であるかどうかはほとんど調査されていない。
本稿では,モーダル不完全データの存在下でのトランスフォーマーの挙動を包括的に調査する。
当然ながら、トランスフォーマーモデルは欠落したモダリティに敏感であり、異なるモーダル核融合戦略はロバスト性に大きく影響する。
私たちが驚いたのは、最適な融合戦略が同じトランスフォーマーモデルでもデータセットに依存することだ。
これらの結果に基づいて,入力データに関する最適な融合戦略を自動探索することで,トランスフォーマーモデルの堅牢性を向上させるための基本手法を提案する。
3つのベンチマーク実験により,提案手法の優れた性能が得られた。
関連論文リスト
- FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [31.252384334117792]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。
多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
実世界でのFuseMoEの実用性は、臨床リスク予測タスクの挑戦的なセットによって検証される。
論文 参考訳(メタデータ) (2024-02-05T17:37:46Z) - Multimodal Pathway: Improve Transformers with Irrelevant Data from Other
Modalities [60.04504520085965]
我々は,他のモダリティからの無関係なデータを用いて,特定のモダリティのトランスフォーマーを改善することを提案する。
我々は、他のモダリティのデータで訓練された補助変圧器を使用し、2つのモデルのコンポーネントを接続するための経路を構築している。
我々は、他のモダリティの無関係なデータを用いて、顕著で一貫したパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-01-25T18:59:58Z) - Missing-modality Enabled Multi-modal Fusion Architecture for Medical
Data [8.472576865966744]
マルチモーダルデータを融合することで、ディープラーニングモデルの性能を向上させることができる。
欠失モダリティは、患者の特異性によって医療データに共通する。
本研究では、欠落したモダリティに対して堅牢な医療データのための効率的なマルチモーダル融合アーキテクチャを開発した。
論文 参考訳(メタデータ) (2023-09-27T09:46:07Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。