論文の概要: EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding
- arxiv url: http://arxiv.org/abs/2301.02217v1
- Date: Thu, 5 Jan 2023 18:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:18:26.989252
- Title: EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding
- Title(参考訳): EgoDistill:効率的なビデオ理解のためのエゴセントリックな頭部運動蒸留
- Authors: Shuhan Tan, Tushar Nagarajan, Kristen Grauman
- Abstract要約: 本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
- 参考スコア(独自算出の注目度): 90.9111678470214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in egocentric video understanding models are promising, but
their heavy computational expense is a barrier for many real-world
applications. To address this challenge, we propose EgoDistill, a
distillation-based approach that learns to reconstruct heavy egocentric video
clip features by combining the semantics from a sparse set of video frames with
the head motion from lightweight IMU readings. We further devise a novel
self-supervised training strategy for IMU feature learning. Our method leads to
significant improvements in efficiency, requiring 200x fewer GFLOPs than
equivalent video models. We demonstrate its effectiveness on the Ego4D and
EPICKitchens datasets, where our method outperforms state-of-the-art efficient
video understanding methods.
- Abstract(参考訳): エゴセントリックビデオ理解モデルの最近の進歩は有望だが、その計算コストは実世界の多くのアプリケーションにとって障壁となっている。
この課題に対処するため,本論文では,軽量IMU読影器の頭部運動と疎ビデオフレームのセマンティクスを組み合わせることで,重心集中型ビデオクリップの特徴を再構築する蒸留法であるEgoDistillを提案する。
さらに,IMU機能学習のための自己指導型学習戦略を考案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
我々は,ego4dおよびepickitchensデータセット上での有効性を実証する。
関連論文リスト
- Retrieval-Augmented Egocentric Video Captioning [55.96764681240016]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き寄せる新しいEgoExoNCE損失で、クロスビュー検索モジュールをトレーニングする。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction
Tuning [29.310885220370412]
我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。
目的は、ユーザのプロンプト質問と入力自我中心の画像に基づいてアクションフレーム条件を合成することである。
提案したモデルを,Ego4DとEpic-Kitchensという,エゴセントリックな2つのデータセットで検証する。
論文 参考訳(メタデータ) (2023-12-06T19:02:40Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Multimodal Distillation for Egocentric Action Recognition [41.821485757189656]
エゴセントリックなビデオ理解は、手動物体の相互作用をモデル化する。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、それらの性能は補足的手がかりを提供する追加の入力モダリティを利用することによりさらに向上する。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2023-07-14T17:07:32Z) - EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - EgoVSR: Towards High-Quality Egocentric Video Super-Resolution [23.50915512118989]
EgoVSRは、エゴセントリックビデオ用に特別に設計されたビデオ超解法フレームワークである。
VSRフレームワークのDual Branch Deblur Network (DB$2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。
一般的なVSRトレーニングデータに対するオンラインモーションブラー合成モデルを提案し,エゴセントリックビデオのような動きブラーをシミュレートした。
論文 参考訳(メタデータ) (2023-05-24T04:25:51Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。