論文の概要: SMIL: Multimodal Learning with Severely Missing Modality
- arxiv url: http://arxiv.org/abs/2103.05677v1
- Date: Tue, 9 Mar 2021 19:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:57:13.757911
- Title: SMIL: Multimodal Learning with Severely Missing Modality
- Title(参考訳): SMIL: 過度にモダリティを欠くマルチモーダル学習
- Authors: Mengmeng Ma, Jian Ren, Long Zhao, Sergey Tulyakov, Cathy Wu, Xi Peng
- Abstract要約: 自由度(トレーニング,テスト,あるいはその両方におけるモダリティを許容する)と効率性(ほとんどのトレーニングデータは不完全モダリティを持つ)の観点から,モダリティを欠いたマルチモーダル学習について検討する。
技術的には,ベイジアンメタラーニングを利用して両目的を均一に達成するSMILという新しい手法を提案する。
その結果,自己エンコーダや生成敵ネットワークを含む既存の手法および生成ベースラインよりもSMILの最先端性能が証明された。
- 参考スコア(独自算出の注目度): 30.184852244696096
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A common assumption in multimodal learning is the completeness of training
data, i.e., full modalities are available in all training examples. Although
there exists research endeavor in developing novel methods to tackle the
incompleteness of testing data, e.g., modalities are partially missing in
testing examples, few of them can handle incomplete training modalities. The
problem becomes even more challenging if considering the case of severely
missing, e.g., 90% training examples may have incomplete modalities. For the
first time in the literature, this paper formally studies multimodal learning
with missing modality in terms of flexibility (missing modalities in training,
testing, or both) and efficiency (most training data have incomplete modality).
Technically, we propose a new method named SMIL that leverages Bayesian
meta-learning in uniformly achieving both objectives. To validate our idea, we
conduct a series of experiments on three popular benchmarks: MM-IMDb, CMU-MOSI,
and avMNIST. The results prove the state-of-the-art performance of SMIL over
existing methods and generative baselines including autoencoders and generative
adversarial networks. Our code is available at
https://github.com/mengmenm/SMIL.
- Abstract(参考訳): マルチモーダル学習における一般的な仮定は、トレーニングデータの完全性である。
テストデータの不完全性に対処する新しい手法の開発には、例えば、モダリティが部分的に欠落している試験例があるが、不完全トレーニングのモダリティに対処できるものはほとんどない。
例えば、90%のトレーニング例が不完全なモダリティを持つ場合など、深刻な欠陥がある場合を考えると、この問題はさらに困難になる。
本稿は,本論文で初めて,柔軟性(トレーニング,テスト,あるいはその両方におけるモダリティの欠如)と効率(ほとんどのトレーニングデータには不完全なモダリティがある)の観点から,マルチモーダル学習を公式に研究する。
技術的には,ベイジアンメタラーニングを利用して両目的を均一に達成するSMILという新しい手法を提案する。
提案手法を検証するため,MM-IMDb,CMU-MOSI,avMNISTの3つのベンチマーク実験を行った。
その結果,自己エンコーダや生成敵ネットワークを含む既存の手法および生成ベースラインよりもSMILの最先端性能が証明された。
私たちのコードはhttps://github.com/mengmenm/SMILで利用可能です。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Deep Multimodal Learning with Missing Modality: A Survey [12.873458712005037]
欠落したモダリティを扱うために設計されたマルチモーダル学習技術は、これを緩和することができる。
本調査は,Multimodal Learning with Missing Modality (MLMM)の最近の進歩を概観する。
論文 参考訳(メタデータ) (2024-09-12T08:15:39Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Multimodal Federated Learning with Missing Modality via Prototype Mask
and Contrast [23.936677199734213]
本稿では,FedAvgベースのFederated Learningフレームワークにプロトタイプライブラリを導入する。
提案手法は,タスク校正されたトレーニング損失とモデルに依存しない一様性推論戦略を定式化するために,欠落したモダリティを表すマスクとしてプロトタイプを利用する。
ベースラインと比較して,トレーニング中に50%のモダリティが欠落し,一様性推論時に23.8%の精度で推論精度が3.7%向上した。
論文 参考訳(メタデータ) (2023-12-21T00:55:12Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences [32.42505193560884]
本稿では,MM-Align という新しい手法を提案する。
MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。
提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
論文 参考訳(メタデータ) (2022-10-23T17:44:56Z) - FLUID: A Unified Evaluation Framework for Flexible Sequential Data [42.44973069520298]
我々は新しい統合評価フレームワーク、FLUID(Flexible Sequential Data)を導入する。
FLUIDは、少数ショット、継続、転送、表現学習の目的を統合している。
我々は、現在のソリューションの利点と限界に関する新たな洞察をもたらす、幅広い手法の実験を行う。
論文 参考訳(メタデータ) (2020-07-06T04:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。