論文の概要: Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities
- arxiv url: http://arxiv.org/abs/2504.08578v2
- Date: Wed, 17 Sep 2025 20:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 15:20:14.332219
- Title: Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities
- Title(参考訳): エゴセントリックな行動認識のためのマルチモーダル知識蒸留法
- Authors: Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus, Jesus Bermudez-Cameo, Jose J. Guerrero, Simone Schaub-Meyer,
- Abstract要約: KARMMAはマルチモーダルな知識蒸留手法であり、ミス・モダリティに頑健なエゴセントリックな行動認識のためのものである。
我々の学生は、モダリティの欠如した条件下での精度低下を著しく低減しつつ、競争精度を達成する。
- 参考スコア(独自算出の注目度): 45.38477844113637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for egocentric action recognition often rely solely on RGB videos, while additional modalities, e.g., audio, can improve accuracy in challenging scenarios. However, most prior multimodal approaches assume all modalities are available at inference, leading to significant accuracy drops, or even failure, when inputs are missing. To address this, we introduce KARMMA, a multimodal Knowledge distillation approach for egocentric Action Recognition robust to Missing ModAlities that requires no modality alignment across all samples during training or inference. KARMMA distills knowledge from a multimodal teacher into a multimodal student that benefits from all available modalities while remaining robust to missing ones, making it suitable for diverse multimodal scenarios without retraining. Our student uses approximately 50% fewer computational resources than our teacher, resulting in a lightweight and fast model. Experiments on Epic-Kitchens and Something-Something show that our student achieves competitive accuracy while significantly reducing accuracy drops under missing modality conditions.
- Abstract(参考訳): 既存のエゴセントリックなアクション認識の方法は、RGBビデオのみに依存している場合が多いが、オーディオなどの追加のモダリティは、挑戦的なシナリオにおける精度を向上させることができる。
しかし、多くの先行するマルチモーダルアプローチは、全てのモダリティが推論時に利用可能であると仮定し、入力が欠落している場合、かなりの精度の低下や失敗に至る。
そこで本研究では,マルチモーダルな知識蒸留手法であるKARMMAを紹介した。
KARMMAは、マルチモーダルな教師からの知識を多モーダルな学生に蒸留し、すべてのモダリティの恩恵を受けながら、欠落した教師に頑健で、再訓練せずに多様なマルチモーダルなシナリオに適合する。
私たちの学生は、教師よりも計算リソースが約50%少ないので、軽量で高速なモデルになります。
Epic-Kitchens と Something-Something の実験は、学生が競争精度を達成しつつ、モダリティの欠如した条件下での精度低下を著しく低減していることを示している。
関連論文リスト
- Cross-Modal Distillation For Widely Differing Modalities [31.049823782188437]
我々は,教師モデルを導入し,学生モデルに差別的知識を伝達することでマルチモーダル学習を行う。
蒸留によるこの知識伝達は、広く異なるモダリティ間の大きなドメインギャップが、容易に過度な適合をもたらすため、簡単ではない。
本稿では,2つの軟式制約付き知識蒸留法と品質ベース適応重みモジュールを用いて,試料の重み付けを行う。
論文 参考訳(メタデータ) (2025-07-22T07:34:00Z) - Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities [3.88369051454137]
マルチモーダル学習は、複数のデータモダリティから情報を知覚し、理解することで、ディープラーニングモデルを強化する。
既存のアプローチのほとんどは、現実のアプリケーションでしばしば失敗する前提として、すべてのモダリティの可用性を前提としています。
最近の研究は、欠落したモダリティによる性能劣化を軽減するために学習可能な欠落事例認識プロンプトを導入している。
個別のモダリティに適合したクラスワイドプロトタイプを欠落ケース認識する新しいデカップリング型プロトタイプベース出力ヘッドを提案する。
論文 参考訳(メタデータ) (2025-05-13T06:53:37Z) - Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Elevating Skeleton-Based Action Recognition with Efficient
Multi-Modality Self-Supervision [40.16465314639641]
近年,人間の行動認識のための自己指導型表現学習が急速に発展している。
既存の作業の多くは、マルチモダリティ設定を使用してスケルトンデータに基づいている。
本稿ではまず,低性能モード間の誤った知識の伝播を緩和するインプリシト知識交換モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-21T12:27:43Z) - Multimodal Distillation for Egocentric Action Recognition [41.821485757189656]
エゴセントリックなビデオ理解は、手動物体の相互作用をモデル化する。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、それらの性能は補足的手がかりを提供する追加の入力モダリティを利用することによりさらに向上する。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2023-07-14T17:07:32Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。