論文の概要: EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding
- arxiv url: http://arxiv.org/abs/2301.02217v1
- Date: Thu, 5 Jan 2023 18:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:18:26.989252
- Title: EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding
- Title(参考訳): EgoDistill:効率的なビデオ理解のためのエゴセントリックな頭部運動蒸留
- Authors: Shuhan Tan, Tushar Nagarajan, Kristen Grauman
- Abstract要約: 本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
- 参考スコア(独自算出の注目度): 90.9111678470214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in egocentric video understanding models are promising, but
their heavy computational expense is a barrier for many real-world
applications. To address this challenge, we propose EgoDistill, a
distillation-based approach that learns to reconstruct heavy egocentric video
clip features by combining the semantics from a sparse set of video frames with
the head motion from lightweight IMU readings. We further devise a novel
self-supervised training strategy for IMU feature learning. Our method leads to
significant improvements in efficiency, requiring 200x fewer GFLOPs than
equivalent video models. We demonstrate its effectiveness on the Ego4D and
EPICKitchens datasets, where our method outperforms state-of-the-art efficient
video understanding methods.
- Abstract(参考訳): エゴセントリックビデオ理解モデルの最近の進歩は有望だが、その計算コストは実世界の多くのアプリケーションにとって障壁となっている。
この課題に対処するため,本論文では,軽量IMU読影器の頭部運動と疎ビデオフレームのセマンティクスを組み合わせることで,重心集中型ビデオクリップの特徴を再構築する蒸留法であるEgoDistillを提案する。
さらに,IMU機能学習のための自己指導型学習戦略を考案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
我々は,ego4dおよびepickitchensデータセット上での有効性を実証する。
関連論文リスト
- MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EAGLE: Egocentric AGgregated Language-video Engine [34.60423566630983]
我々は,Eagle(Egocentric AGgregated Language-video Engine)モデルとEagle-400Kデータセットを導入し,エゴセントリックなビデオ理解タスクを統合する統一フレームワークを提供する。
エゴセントリックなビデオ分析は、一人称視点から人間の活動や意図を理解するための新たな洞察をもたらす。
論文 参考訳(メタデータ) (2024-09-26T04:17:27Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation [57.38965505987893]
Ego-VPAは、エゴ中心のビデオタスクに対するパラメータ効率の適応である。
Ego-VPAは、わずか0.84%の学習可能なパラメータで軽量な適応を実現している。
論文 参考訳(メタデータ) (2024-07-28T16:01:32Z) - DL-KDD: Dual-Light Knowledge Distillation for Action Recognition in the Dark [2.941253902145271]
暗黒における行動認識のためのDual-Light KnowleDge Distillation for Action Recognition (DL-KDD) という教師によるビデオ分類フレームワークを提案する。
このフレームワークは、推論中に追加の計算コストを導入することなく、オリジナルのビデオと拡張ビデオの両方から学習することができる。
実験では,提案するDL-KDDフレームワークがARID,ARID V1.5,Dark-48データセットの最先端手法より優れていた。
論文 参考訳(メタデータ) (2024-06-04T16:38:06Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning [27.661804052577825]
我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。
ユーザプロンプトと入力エゴセントリック画像に条件付けすることで、ユーザのコンテキスト(例えばアクションフレーム)におけるアクションを描写した画像を合成する。
論文 参考訳(メタデータ) (2023-12-06T19:02:40Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。