論文の概要: MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2305.07214v1
- Date: Fri, 12 May 2023 03:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:16:49.648272
- Title: MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
- Title(参考訳): MMG-Ego4D:エゴセントリック行動認識におけるマルチモーダル一般化
- Authors: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li,
Zhangyang Wang, Rakesh Ranjan
- Abstract要約: MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
- 参考スコア(独自算出の注目度): 73.80088682784587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study a novel problem in egocentric action recognition,
which we term as "Multimodal Generalization" (MMG). MMG aims to study how
systems can generalize when data from certain modalities is limited or even
completely missing. We thoroughly investigate MMG in the context of standard
supervised action recognition and the more challenging few-shot setting for
learning new action categories. MMG consists of two novel scenarios, designed
to support security, and efficiency considerations in real-world applications:
(1) missing modality generalization where some modalities that were present
during the train time are missing during the inference time, and (2)
cross-modal zero-shot generalization, where the modalities present during the
inference time and the training time are disjoint. To enable this
investigation, we construct a new dataset MMG-Ego4D containing data points with
video, audio, and inertial motion sensor (IMU) modalities. Our dataset is
derived from Ego4D dataset, but processed and thoroughly re-annotated by human
experts to facilitate research in the MMG problem. We evaluate a diverse array
of models on MMG-Ego4D and propose new methods with improved generalization
ability. In particular, we introduce a new fusion module with modality dropout
training, contrastive-based alignment training, and a novel cross-modal
prototypical loss for better few-shot performance. We hope this study will
serve as a benchmark and guide future research in multimodal generalization
problems. The benchmark and code will be available at
https://github.com/facebookresearch/MMG_Ego4D.
- Abstract(参考訳): 本稿では,エゴセントリックな行動認識における新しい問題について検討し,これをMMG(Multimodal Generalization)と呼ぶ。
MMGは、特定のモダリティからのデータに制限がある場合、あるいは完全に欠落した場合、システムがどのように一般化できるかを研究することを目的としている。
新しいアクションカテゴリを学習するための、標準教師付きアクション認識とより挑戦的なマイナショット設定のコンテキストにおいて、mmgを徹底的に検討する。
MMGは, 実世界の応用において, 安全性と効率性を考慮した2つの新しいシナリオで構成されている。(1) 推論時間中に列車時間中に存在したモダリティが欠落しているモダリティ一般化と, (2) 推論時間中に存在するモダリティとトレーニング時間の間に発生するモダリティが不一致しているモダリティ一般化である。
そこで本研究では,ビデオ,音声,慣性運動センサ(IMU)を用いたデータポイントを含む新しいデータセットMMG-Ego4Dを構築した。
我々のデータセットは、Ego4Dデータセットから派生したものですが、MMG問題の研究を促進するために、人間の専門家によって処理され、完全に再注釈されています。
mmg-ego4dの多様なモデルを評価し,一般化能力を向上させる新しい手法を提案する。
特に,モーダリティ・ドロップアウト・トレーニング,コントラストベースアライメントトレーニング,新しいクロスモーダル・プロトティピカルロスを組み込んだ新しい融合モジュールを導入し,低ショット性能を向上した。
この研究がベンチマークとなり、マルチモーダル一般化問題における今後の研究のガイドとなることを願っている。
ベンチマークとコードはhttps://github.com/facebookresearch/MMG_Ego4Dで公開される。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。