論文の概要: MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2305.07214v1
- Date: Fri, 12 May 2023 03:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:16:49.648272
- Title: MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
- Title(参考訳): MMG-Ego4D:エゴセントリック行動認識におけるマルチモーダル一般化
- Authors: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li,
Zhangyang Wang, Rakesh Ranjan
- Abstract要約: MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
- 参考スコア(独自算出の注目度): 73.80088682784587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study a novel problem in egocentric action recognition,
which we term as "Multimodal Generalization" (MMG). MMG aims to study how
systems can generalize when data from certain modalities is limited or even
completely missing. We thoroughly investigate MMG in the context of standard
supervised action recognition and the more challenging few-shot setting for
learning new action categories. MMG consists of two novel scenarios, designed
to support security, and efficiency considerations in real-world applications:
(1) missing modality generalization where some modalities that were present
during the train time are missing during the inference time, and (2)
cross-modal zero-shot generalization, where the modalities present during the
inference time and the training time are disjoint. To enable this
investigation, we construct a new dataset MMG-Ego4D containing data points with
video, audio, and inertial motion sensor (IMU) modalities. Our dataset is
derived from Ego4D dataset, but processed and thoroughly re-annotated by human
experts to facilitate research in the MMG problem. We evaluate a diverse array
of models on MMG-Ego4D and propose new methods with improved generalization
ability. In particular, we introduce a new fusion module with modality dropout
training, contrastive-based alignment training, and a novel cross-modal
prototypical loss for better few-shot performance. We hope this study will
serve as a benchmark and guide future research in multimodal generalization
problems. The benchmark and code will be available at
https://github.com/facebookresearch/MMG_Ego4D.
- Abstract(参考訳): 本稿では,エゴセントリックな行動認識における新しい問題について検討し,これをMMG(Multimodal Generalization)と呼ぶ。
MMGは、特定のモダリティからのデータに制限がある場合、あるいは完全に欠落した場合、システムがどのように一般化できるかを研究することを目的としている。
新しいアクションカテゴリを学習するための、標準教師付きアクション認識とより挑戦的なマイナショット設定のコンテキストにおいて、mmgを徹底的に検討する。
MMGは, 実世界の応用において, 安全性と効率性を考慮した2つの新しいシナリオで構成されている。(1) 推論時間中に列車時間中に存在したモダリティが欠落しているモダリティ一般化と, (2) 推論時間中に存在するモダリティとトレーニング時間の間に発生するモダリティが不一致しているモダリティ一般化である。
そこで本研究では,ビデオ,音声,慣性運動センサ(IMU)を用いたデータポイントを含む新しいデータセットMMG-Ego4Dを構築した。
我々のデータセットは、Ego4Dデータセットから派生したものですが、MMG問題の研究を促進するために、人間の専門家によって処理され、完全に再注釈されています。
mmg-ego4dの多様なモデルを評価し,一般化能力を向上させる新しい手法を提案する。
特に,モーダリティ・ドロップアウト・トレーニング,コントラストベースアライメントトレーニング,新しいクロスモーダル・プロトティピカルロスを組み込んだ新しい融合モジュールを導入し,低ショット性能を向上した。
この研究がベンチマークとなり、マルチモーダル一般化問題における今後の研究のガイドとなることを願っている。
ベンチマークとコードはhttps://github.com/facebookresearch/MMG_Ego4Dで公開される。
関連論文リスト
- Exploring Missing Modality in Multimodal Egocentric Datasets [96.30363067135761]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - MMCGAN: Generative Adversarial Network with Explicit Manifold Prior [78.58159882218378]
本稿では,モード崩壊を緩和し,GANのトレーニングを安定させるために,明示的な多様体学習を採用することを提案する。
玩具データと実データの両方を用いた実験により,MMCGANのモード崩壊緩和効果,トレーニングの安定化,生成サンプルの品質向上効果が示された。
論文 参考訳(メタデータ) (2020-06-18T07:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。