論文の概要: COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2503.07259v1
- Date: Mon, 10 Mar 2025 12:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:39.063565
- Title: COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition
- Title(参考訳): COMODO:効率的な自己中心型人間活動認識のためのクロスモーダルビデオ-IMU蒸留
- Authors: Baiyu Chen, Wilson Wongso, Zechen Li, Yonchanok Khaokaew, Hao Xue, Flora Salim,
- Abstract要約: ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。
我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
- 参考スコア(独自算出の注目度): 3.271109623410664
- License:
- Abstract: Egocentric video-based models capture rich semantic information and have demonstrated strong performance in human activity recognition (HAR). However, their high power consumption, privacy concerns, and dependence on lighting conditions limit their feasibility for continuous on-device recognition. In contrast, inertial measurement unit (IMU) sensors offer an energy-efficient and privacy-preserving alternative, yet they suffer from limited large-scale annotated datasets, leading to weaker generalization in downstream tasks. To bridge this gap, we propose COMODO, a cross-modal self-supervised distillation framework that transfers rich semantic knowledge from the video modality to the IMU modality without requiring labeled annotations. COMODO leverages a pretrained and frozen video encoder to construct a dynamic instance queue, aligning the feature distributions of video and IMU embeddings. By distilling knowledge from video representations, our approach enables the IMU encoder to inherit rich semantic information from video while preserving its efficiency for real-world applications. Experiments on multiple egocentric HAR datasets demonstrate that COMODO consistently improves downstream classification performance, achieving results comparable to or exceeding fully supervised fine-tuned models. Moreover, COMODO exhibits strong cross-dataset generalization. Benefiting from its simplicity, our method is also generally applicable to various video and time-series pre-trained models, offering the potential to leverage more powerful teacher and student foundation models in future research. The code is available at https://github.com/Breezelled/COMODO .
- Abstract(参考訳): エゴセントリックなビデオベースモデルは、リッチなセマンティック情報をキャプチャし、ヒューマンアクティビティ認識(HAR)において強力なパフォーマンスを示している。
しかし、その高消費電力、プライバシーの懸念、照明条件への依存は、デバイス上での継続的な認識の実現可能性を制限する。
対照的に、慣性測定ユニット(IMU)センサーはエネルギー効率とプライバシー保護の代替手段を提供するが、大規模なアノテートデータセットが限られており、下流タスクの一般化が弱まる。
このギャップを埋めるために,ビデオモダリティからIMUモダリティへの豊富な意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。
COMODOはトレーニング済みで凍結されたビデオエンコーダを利用して動的インスタンスキューを構築し、ビデオとIMUの埋め込みの特徴分布を整列する。
ビデオ表現から知識を抽出することにより、IMUエンコーダはビデオからリッチなセマンティック情報を継承し、実世界のアプリケーションでその効率を保っている。
複数のエゴセントリックなHARデータセットの実験は、COMODOがダウンストリームの分類性能を一貫して改善し、完全に教師された微調整モデルに匹敵する結果を得ることを示した。
さらに、COMODOは強力なクロスデータセットの一般化を示す。
その単純さから、本手法は様々なビデオ・時系列事前学習モデルにも適用可能であり、将来の研究においてより強力な教員・学生基盤モデルを活用する可能性を秘めている。
コードはhttps://github.com/Breezelled/COMODO で公開されている。
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。
本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文 参考訳(メタデータ) (2024-06-03T13:28:42Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic
Facial Expression Recognition [47.29528724322795]
MAE-DFERは動的表情を学習するための新しい自己教師型手法である。
大量のラベルのないデータに基づいて、大規模な自己教師付き事前トレーニングを使用する。
常に最先端の教師付きメソッドより優れています。
論文 参考訳(メタデータ) (2023-07-05T12:08:56Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。