論文の概要: EgoAdapt: Adaptive Multisensory Distillation and Policy Learning for Efficient Egocentric Perception
- arxiv url: http://arxiv.org/abs/2506.21080v1
- Date: Thu, 26 Jun 2025 08:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.019742
- Title: EgoAdapt: Adaptive Multisensory Distillation and Policy Learning for Efficient Egocentric Perception
- Title(参考訳): エゴアダプティブ:効率的なエゴセントリック認識のための適応型多感覚蒸留と政策学習
- Authors: Sanjoy Chowdhury, Subrata Biswas, Sayan Nag, Tushar Nagarajan, Calvin Murdock, Ishwarya Ananthabhotla, Yijun Qian, Vamsi Krishna Ithapu, Dinesh Manocha, Ruohan Gao,
- Abstract要約: EgoAdaptは、エゴセントリックな知覚タスク間で効率的な推論を可能にするために、クロスモーダル蒸留とポリシー学習を適応的に行うフレームワークである。
その結果、EgoAdaptは効率を大幅に向上し、GMACを89.09%、パラメータを82.02%、エネルギーを9.6倍に削減した。
- 参考スコア(独自算出の注目度): 59.93605371289108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern perception models, particularly those designed for multisensory egocentric tasks, have achieved remarkable performance but often come with substantial computational costs. These high demands pose challenges for real-world deployment, especially in resource-constrained environments. In this paper, we introduce EgoAdapt, a framework that adaptively performs cross-modal distillation and policy learning to enable efficient inference across different egocentric perception tasks, including egocentric action recognition, active speaker localization, and behavior anticipation. Our proposed policy module is adaptable to task-specific action spaces, making it broadly applicable. Experimental results on three challenging egocentric datasets EPIC-Kitchens, EasyCom, and Aria Everyday Activities demonstrate that our method significantly enhances efficiency, reducing GMACs by up to 89.09%, parameters up to 82.02%, and energy up to 9.6x, while still on-par and in many cases outperforming, the performance of corresponding state-of-the-art models.
- Abstract(参考訳): 現代の知覚モデル、特に多感覚のエゴセントリックなタスクのために設計されたモデルは、目覚ましい性能を達成したが、しばしばかなりの計算コストを伴っている。
これらの高い要求は、特にリソース制約のある環境で、現実世界のデプロイメントに課題をもたらす。
本稿では,エゴセントリックな行動認識,アクティブな話者ローカライゼーション,行動予測など,さまざまなエゴセントリックな認識タスクに対する効率的な推論を実現するために,クロスモーダル蒸留と政策学習を適応的に実施するフレームワークであるEgoAdaptを紹介する。
提案するポリシモジュールはタスク固有のアクション空間に適用可能であり,広く適用可能である。
EPIC-Kitchens,EasyCom,Aria Everyday Activityの3つの挑戦的エゴセントリックデータセットの実験結果から,我々の手法は効率を大幅に向上し,GMACを89.09%削減し,パラメータを最大82.02%、エネルギーを最大9.6倍まで削減する。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Knowledge Distillation for Multimodal Egocentric Action Recognition Robust to Missing Modalities [43.15852057358654]
我々は,エゴセントリックな行動認識のための効率的なマルチモーダルな知識蒸留手法を提案する。
本手法は,教師モデルにおける一助的特徴抽出器として事前学習したモデルを活用することで,資源効率の向上に重点を置いている。
論文 参考訳(メタデータ) (2025-04-11T14:30:42Z) - Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。
このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。