Fugu-MT 論文翻訳(概要): EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding

論文の概要: EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding

arxiv url: http://arxiv.org/abs/2301.02217v1
Date: Thu, 5 Jan 2023 18:39:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 14:18:26.989252
Title: EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding
Title（参考訳）: EgoDistill:効率的なビデオ理解のためのエゴセントリックな頭部運動蒸留
Authors: Shuhan Tan, Tushar Nagarajan, Kristen Grauman
Abstract要約: 本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。 Ego4D と EPICKitchens のデータセット上での有効性を示す。
参考スコア（独自算出の注目度）: 90.9111678470214
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in egocentric video understanding models are promising, but their heavy computational expense is a barrier for many real-world applications. To address this challenge, we propose EgoDistill, a distillation-based approach that learns to reconstruct heavy egocentric video clip features by combining the semantics from a sparse set of video frames with the head motion from lightweight IMU readings. We further devise a novel self-supervised training strategy for IMU feature learning. Our method leads to significant improvements in efficiency, requiring 200x fewer GFLOPs than equivalent video models. We demonstrate its effectiveness on the Ego4D and EPICKitchens datasets, where our method outperforms state-of-the-art efficient video understanding methods.
Abstract（参考訳）: エゴセントリックビデオ理解モデルの最近の進歩は有望だが、その計算コストは実世界の多くのアプリケーションにとって障壁となっている。この課題に対処するため,本論文では,軽量IMU読影器の頭部運動と疎ビデオフレームのセマンティクスを組み合わせることで,重心集中型ビデオクリップの特徴を再構築する蒸留法であるEgoDistillを提案する。さらに,IMU機能学習のための自己指導型学習戦略を考案する。提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。我々は,ego4dおよびepickitchensデータセット上での有効性を実証する。

関連論文リスト

Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。 Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文参考訳（メタデータ） (2025-03-12T08:10:33Z)
COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文参考訳（メタデータ） (2025-03-10T12:43:51Z)
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。 EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文参考訳（メタデータ） (2025-03-02T18:49:48Z)
MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文参考訳（メタデータ） (2024-10-09T17:59:59Z)
EAGLE: Egocentric AGgregated Language-video Engine [34.60423566630983]
我々は,Eagle(Egocentric AGgregated Language-video Engine)モデルとEagle-400Kデータセットを導入し,エゴセントリックなビデオ理解タスクを統合する統一フレームワークを提供する。エゴセントリックなビデオ分析は、一人称視点から人間の活動や意図を理解するための新たな洞察をもたらす。
論文参考訳（メタデータ） (2024-09-26T04:17:27Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation [57.38965505987893]
Ego-VPAは、エゴ中心のビデオタスクに対するパラメータ効率の適応である。 Ego-VPAは、わずか0.84%の学習可能なパラメータで軽量な適応を実現している。
論文参考訳（メタデータ） (2024-07-28T16:01:32Z)
DL-KDD: Dual-Light Knowledge Distillation for Action Recognition in the Dark [2.941253902145271]
暗黒における行動認識のためのDual-Light KnowleDge Distillation for Action Recognition (DL-KDD) という教師によるビデオ分類フレームワークを提案する。このフレームワークは、推論中に追加の計算コストを導入することなく、オリジナルのビデオと拡張ビデオの両方から学習することができる。実験では,提案するDL-KDDフレームワークがARID,ARID V1.5,Dark-48データセットの最先端手法より優れていた。
論文参考訳（メタデータ） (2024-06-04T16:38:06Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning [27.661804052577825]
我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。ユーザプロンプトと入力エゴセントリック画像に条件付けすることで、ユーザのコンテキスト(例えばアクションフレーム)におけるアクションを描写した画像を合成する。
論文参考訳（メタデータ） (2023-12-06T19:02:40Z)
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文参考訳（メタデータ） (2023-11-28T22:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。