論文の概要: Continual Multimodal Egocentric Activity Recognition via Modality-Aware Novel Detection
- arxiv url: http://arxiv.org/abs/2603.16970v1
- Date: Tue, 17 Mar 2026 11:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.313101
- Title: Continual Multimodal Egocentric Activity Recognition via Modality-Aware Novel Detection
- Title(参考訳): モダリティ認識による連続マルチモーダル・エゴセントリックな活動認識
- Authors: Wonseon Lim, Hyejeong Im, Dae-Won Kim,
- Abstract要約: マルチモーダル・エゴセントリックな活動認識は、視覚的および慣性的手がかりを統合して、堅牢な第一対人行動理解を実現する。
既存の手法は、個々のモダリティから得られる補完的な証拠を完全に活用することなく、ノベルティスコアの主要なロジットに依存している。
マルチモーダルなegocentric Open-world連続学習のためのモダリティ対応フレームワークであるMANDを提案する。
- 参考スコア(独自算出の注目度): 2.2207331768131815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal egocentric activity recognition integrates visual and inertial cues for robust first-person behavior understanding. However, deploying such systems in open-world environments requires detecting novel activities while continuously learning from non-stationary streams. Existing methods rely on the main logits for novelty scoring, without fully exploiting the complementary evidence available from individual modalities. Because these logits are often dominated by RGB, cues from other modalities, particularly IMU, remain underutilized, and this imbalance worsens over time under catastrophic forgetting. To address this, we propose MAND, a modality-aware framework for multimodal egocentric open-world continual learning. At inference, Modality-aware Adaptive Scoring (MoAS) estimates sample-wise modality reliability from energy scores and adaptively integrates modality logits to better exploit complementary modality cues for novelty detection. During training, Modality-wise Representation Stabilization Training (MoRST) preserves modality-specific discriminability across tasks via auxiliary heads and modality-wise logit distillation. Experiments on a public multimodal egocentric benchmark show that MAND improves novel activity detection AUC by up to 10\% and known-class classification accuracy by up to 2.8\% over state-of-the-art baselines.
- Abstract(参考訳): マルチモーダル・エゴセントリックな活動認識は、視覚的および慣性的手がかりを統合して、堅牢な第一対人行動理解を実現する。
しかし、そのようなシステムをオープンな環境にデプロイするには、非定常ストリームから継続的に学習しながら、新しいアクティビティを検出する必要がある。
既存の手法は、個々のモダリティから得られる補完的な証拠を完全に活用することなく、ノベルティスコアの主要なロジットに依存している。
これらのロジットはRGBに支配されることが多いため、他のモダリティ(特にIMU)からの手がかりは未利用のままであり、破滅的な忘れ物の下では時間とともに不均衡が悪化する。
そこで本稿では,マルチモーダルな自己中心型オープンワールド連続学習のためのモダリティ対応フレームワークであるMANDを提案する。
推測では、MoAS (Modality-Aware Adaptive Scoring) は、エネルギースコアからサンプルワイドなモダリティの信頼性を推定し、モダリティのロジットを適応的に統合し、相補的なモダリティの手がかりを新規性検出に活用する。
トレーニング中、Modality-wise Representation Stabilization Training (MoRST)は、補助的頭部とModality-wise logit蒸留を通してタスク間のModality-specific discriminabilityを維持する。
公的なマルチモーダル・エゴセントリック・ベンチマークの実験では、MANDは最先端のベースラインよりも10 %、既知のクラス分類の精度を2.8 %改善している。
関連論文リスト
- BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment [25.689906499244533]
アクション品質アセスメント(AQA)は、スポーツ分析、リハビリテーションアセスメント、ヒューマンスキルアセスメントにおいて、アクションがどれだけうまく実行されるかを評価することを目的としている。
BriMA(Bridged Modality Adaptation)は,マルチモーダル連続型AQAに対して,モダリティを欠く条件下での革新的なアプローチである。
BriMAは、タスクに依存しない表現とタスク固有の表現の両方を用いて、欠落したモダリティを再構築するメモリ誘導ブリッジインパクションモジュールと、モダリティ歪みと分散ドリフトに基づく情報サンプルの優先順位付けを行うモダリティ対応リプレイ機構で構成されている。
論文 参考訳(メタデータ) (2026-02-22T13:00:52Z) - Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - MAESTRO : Adaptive Sparse Attention and Robust Learning for Multimodal Dynamic Time Series [7.657107258507061]
既存のマルチモーダル学習アプローチの重要な制約を克服する新しいフレームワークであるMAESTROを紹介する。
MAESTROのコアとなるのは、タスクの関連性に基づいた動的イントラモーダル相互作用とクロスモーダル相互作用である。
3つのアプリケーションにまたがる4つの多様なデータセットに基づいて,MAESTROを10のベースラインに対して評価した。
論文 参考訳(メタデータ) (2025-09-29T03:07:06Z) - Active Multimodal Distillation for Few-shot Action Recognition [19.872938560809988]
本稿では,タスク固有のコンテキストキューを用いて,各サンプルに対する信頼度を積極的に識別する新しいフレームワークを提案する。
我々のフレームワークはアクティブサンプル推論(ASI)モジュールを統合し、アクティブ推論を利用して信頼性の高いモダリティを予測する。
強化学習とは異なり、アクティブ推論は報酬をエビデンスに基づく選好に置き換え、より安定した予測を行う。
論文 参考訳(メタデータ) (2025-06-16T10:10:56Z) - Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities [45.38477844113637]
KARMMAはマルチモーダルな知識蒸留手法であり、ミス・モダリティに頑健なエゴセントリックな行動認識のためのものである。
我々の学生は、モダリティの欠如した条件下での精度低下を著しく低減しつつ、競争精度を達成する。
論文 参考訳(メタデータ) (2025-04-11T14:30:42Z) - Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。