論文の概要: Towards Good Practices for Missing Modality Robust Action Recognition
- arxiv url: http://arxiv.org/abs/2211.13916v1
- Date: Fri, 25 Nov 2022 06:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:30:31.847320
- Title: Towards Good Practices for Missing Modality Robust Action Recognition
- Title(参考訳): モダリティを欠くロバストな行動認識のための良い実践に向けて
- Authors: Sangmin Woo, Sumin Lee, Yeonju Park, Muhammad Adi Nugroho, Changick
Kim
- Abstract要約: 本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
- 参考スコア(独自算出の注目度): 20.26021126604409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard multi-modal models assume the use of the same modalities in training
and inference stages. However, in practice, the environment in which
multi-modal models operate may not satisfy such assumption. As such, their
performances degrade drastically if any modality is missing in the inference
stage. We ask: how can we train a model that is robust to missing modalities?
This paper seeks a set of good practices for multi-modal action recognition,
with a particular interest in circumstances where some modalities are not
available at an inference time. First, we study how to effectively regularize
the model during training (e.g., data augmentation). Second, we investigate on
fusion methods for robustness to missing modalities: we find that
transformer-based fusion shows better robustness for missing modality than
summation or concatenation. Third, we propose a simple modular network,
ActionMAE, which learns missing modality predictive coding by randomly dropping
modality features and tries to reconstruct them with the remaining modality
features. Coupling these good practices, we build a model that is not only
effective in multi-modal action recognition but also robust to modality
missing. Our model achieves the state-of-the-arts on multiple benchmarks and
maintains competitive performances even in missing modality scenarios. Codes
are available at https://github.com/sangminwoo/ActionMAE.
- Abstract(参考訳): 標準的なマルチモーダルモデルは、トレーニングと推論の段階で同じモダリティを使用する。
しかし、実際には、マルチモーダルモデルが動作する環境はそのような仮定を満たさないかもしれない。
したがって、推論の段階でモダリティが欠けている場合、パフォーマンスは劇的に劣化する。
モダリティの欠如に対して堅牢なモデルをどうやってトレーニングすればよいのか?
本稿では,マルチモーダルな行動認識のための優れたプラクティスのセットを求め,推論時にいくつかのモダリティが利用できない状況に特に関心を寄せる。
まず,トレーニング中(データ拡張など)にモデルを効果的に規則化する方法について検討する。
第二に、モダリティの欠如に対するロバスト性に関する融合法について検討し、トランスフォーマーベースの融合は、和や結合よりもモダリティの欠如に対してより良いロバスト性を示すことを示した。
第3に,モダリティ特徴をランダムにドロップすることでモダリティ予測符号の欠如を学習し,残りのモダリティ特徴で再構成を試みる,シンプルなモジュラーネットワークであるActionMAEを提案する。
これらの優れたプラクティスを結合することで、マルチモーダルなアクション認識だけでなく、モダリティの欠如に対して堅牢なモデルを構築します。
本モデルでは,複数のベンチマークの最先端性を達成し,モダリティを欠くシナリオにおいても競争性能を維持する。
コードはhttps://github.com/sangminwoo/ActionMAEで入手できる。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Multimodal Federated Learning with Missing Modality via Prototype Mask
and Contrast [23.936677199734213]
本稿では,FedAvgベースのFederated Learningフレームワークにプロトタイプライブラリを導入する。
提案手法は,タスク校正されたトレーニング損失とモデルに依存しない一様性推論戦略を定式化するために,欠落したモダリティを表すマスクとしてプロトタイプを利用する。
ベースラインと比較して,トレーニング中に50%のモダリティが欠落し,一様性推論時に23.8%の精度で推論精度が3.7%向上した。
論文 参考訳(メタデータ) (2023-12-21T00:55:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。