論文の概要: SMIL: Multimodal Learning with Severely Missing Modality
- arxiv url: http://arxiv.org/abs/2103.05677v1
- Date: Tue, 9 Mar 2021 19:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:57:13.757911
- Title: SMIL: Multimodal Learning with Severely Missing Modality
- Title(参考訳): SMIL: 過度にモダリティを欠くマルチモーダル学習
- Authors: Mengmeng Ma, Jian Ren, Long Zhao, Sergey Tulyakov, Cathy Wu, Xi Peng
- Abstract要約: 自由度(トレーニング,テスト,あるいはその両方におけるモダリティを許容する)と効率性(ほとんどのトレーニングデータは不完全モダリティを持つ)の観点から,モダリティを欠いたマルチモーダル学習について検討する。
技術的には,ベイジアンメタラーニングを利用して両目的を均一に達成するSMILという新しい手法を提案する。
その結果,自己エンコーダや生成敵ネットワークを含む既存の手法および生成ベースラインよりもSMILの最先端性能が証明された。
- 参考スコア(独自算出の注目度): 30.184852244696096
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A common assumption in multimodal learning is the completeness of training
data, i.e., full modalities are available in all training examples. Although
there exists research endeavor in developing novel methods to tackle the
incompleteness of testing data, e.g., modalities are partially missing in
testing examples, few of them can handle incomplete training modalities. The
problem becomes even more challenging if considering the case of severely
missing, e.g., 90% training examples may have incomplete modalities. For the
first time in the literature, this paper formally studies multimodal learning
with missing modality in terms of flexibility (missing modalities in training,
testing, or both) and efficiency (most training data have incomplete modality).
Technically, we propose a new method named SMIL that leverages Bayesian
meta-learning in uniformly achieving both objectives. To validate our idea, we
conduct a series of experiments on three popular benchmarks: MM-IMDb, CMU-MOSI,
and avMNIST. The results prove the state-of-the-art performance of SMIL over
existing methods and generative baselines including autoencoders and generative
adversarial networks. Our code is available at
https://github.com/mengmenm/SMIL.
- Abstract(参考訳): マルチモーダル学習における一般的な仮定は、トレーニングデータの完全性である。
テストデータの不完全性に対処する新しい手法の開発には、例えば、モダリティが部分的に欠落している試験例があるが、不完全トレーニングのモダリティに対処できるものはほとんどない。
例えば、90%のトレーニング例が不完全なモダリティを持つ場合など、深刻な欠陥がある場合を考えると、この問題はさらに困難になる。
本稿は,本論文で初めて,柔軟性(トレーニング,テスト,あるいはその両方におけるモダリティの欠如)と効率(ほとんどのトレーニングデータには不完全なモダリティがある)の観点から,マルチモーダル学習を公式に研究する。
技術的には,ベイジアンメタラーニングを利用して両目的を均一に達成するSMILという新しい手法を提案する。
提案手法を検証するため,MM-IMDb,CMU-MOSI,avMNISTの3つのベンチマーク実験を行った。
その結果,自己エンコーダや生成敵ネットワークを含む既存の手法および生成ベースラインよりもSMILの最先端性能が証明された。
私たちのコードはhttps://github.com/mengmenm/SMILで利用可能です。
関連論文リスト
- Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Multimodal Federated Learning with Missing Modality via Prototype Mask
and Contrast [23.936677199734213]
本稿では,FedAvgベースのFederated Learningフレームワークにプロトタイプライブラリを導入する。
提案手法は,タスク校正されたトレーニング損失とモデルに依存しない一様性推論戦略を定式化するために,欠落したモダリティを表すマスクとしてプロトタイプを利用する。
ベースラインと比較して,トレーニング中に50%のモダリティが欠落し,一様性推論時に23.8%の精度で推論精度が3.7%向上した。
論文 参考訳(メタデータ) (2023-12-21T00:55:12Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition [73.80088682784587]
MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
論文 参考訳(メタデータ) (2023-05-12T03:05:40Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences [32.42505193560884]
本稿では,MM-Align という新しい手法を提案する。
MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。
提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
論文 参考訳(メタデータ) (2022-10-23T17:44:56Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - FLUID: A Unified Evaluation Framework for Flexible Sequential Data [42.44973069520298]
我々は新しい統合評価フレームワーク、FLUID(Flexible Sequential Data)を導入する。
FLUIDは、少数ショット、継続、転送、表現学習の目的を統合している。
我々は、現在のソリューションの利点と限界に関する新たな洞察をもたらす、幅広い手法の実験を行う。
論文 参考訳(メタデータ) (2020-07-06T04:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。