論文の概要: Exploring Missing Modality in Multimodal Egocentric Datasets
- arxiv url: http://arxiv.org/abs/2401.11470v2
- Date: Wed, 17 Apr 2024 13:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:01:11.498992
- Title: Exploring Missing Modality in Multimodal Egocentric Datasets
- Title(参考訳): マルチモーダル・エゴセントリックデータセットにおける欠落モードの探索
- Authors: Merey Ramazanova, Alejandro Pardo, Humam Alwassel, Bernard Ghanem,
- Abstract要約: モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
- 参考スコア(独自算出の注目度): 89.76463983679058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal video understanding is crucial for analyzing egocentric videos, where integrating multiple sensory signals significantly enhances action recognition and moment localization. However, practical applications often grapple with incomplete modalities due to factors like privacy concerns, efficiency demands, or hardware malfunctions. Addressing this, our study delves into the impact of missing modalities on egocentric action recognition, particularly within transformer-based models. We introduce a novel concept -Missing Modality Token (MMT)-to maintain performance even when modalities are absent, a strategy that proves effective in the Ego4D, Epic-Kitchens, and Epic-Sounds datasets. Our method mitigates the performance loss, reducing it from its original $\sim 30\%$ drop to only $\sim 10\%$ when half of the test set is modal-incomplete. Through extensive experimentation, we demonstrate the adaptability of MMT to different training scenarios and its superiority in handling missing modalities compared to current methods. Our research contributes a comprehensive analysis and an innovative approach, opening avenues for more resilient multimodal systems in real-world settings.
- Abstract(参考訳): マルチモーダルビデオ理解は、複数の感覚信号を統合することで、行動認識とモーメントローカライゼーションを大幅に向上させる。
しかし、プライバシの懸念、効率の要求、ハードウェアの故障などの要因により、実用アプリケーションは不完全なモダリティに悩まされることが多い。
そこで本研究では,エゴセントリックな行動認識,特にトランスフォーマーモデルにおけるモダリティの欠如の影響について検討した。
モダリティが欠如している場合でも、パフォーマンスを維持するための新しい概念として、Ego4D、Epic-Kitchens、Epic-Soundsデータセットに有効な戦略を提案する。
テストセットの半分がモダル不完全である場合、元の$\sim 30\%$ drop から $\sim 10\%$ に還元する。
広範囲な実験を通じて,MMTの異なる訓練シナリオへの適応性や,既存の手法と比較して欠落したモダリティを扱う上での優位性を実証した。
我々の研究は包括的分析と革新的なアプローチに寄与し、現実世界の環境においてよりレジリエンスなマルチモーダルシステムへの道を開く。
関連論文リスト
- Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation [37.06795681738417]
Modality-Incomplete Scene (MISS)は、システムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含むタスクである。
我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
従来のパラメータ効率向上手法よりも5.84%mIoUが改良され,モダリティの欠如が認められた。
論文 参考訳(メタデータ) (2024-01-30T11:46:27Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Missing Modality meets Meta Sampling (M3S): An Efficient Universal
Approach for Multimodal Sentiment Analysis with Missing Modality [5.171058506312429]
モダリティを欠いたマルチモーダル感情分析,すなわちミス・モダリティに基づくメタサンプリング(M3S)のための,シンプルで効果的なメタサンプリング手法を提案する。
M3Sは、モーダル非依存メタラーニングフレームワークに欠落したモダリティサンプリング戦略を定式化する。
我々は,IEMOCAP,SIMS,CMU-MOSIデータセット上で実験を行い,最近の最先端手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-07T09:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。