論文の概要: Frozen CLIP Models are Efficient Video Learners
- arxiv url: http://arxiv.org/abs/2208.03550v1
- Date: Sat, 6 Aug 2022 17:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:21:29.723423
- Title: Frozen CLIP Models are Efficient Video Learners
- Title(参考訳): 凍結CLIPモデルは効果的なビデオ学習者である
- Authors: Ziyi Lin, Shijie Geng, Renrui Zhang, Peng Gao, Gerard de Melo,
Xiaogang Wang, Jifeng Dai, Yu Qiao, Hongsheng Li
- Abstract要約: ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
- 参考スコア(独自算出の注目度): 86.73871814176795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video recognition has been dominated by the end-to-end learning paradigm --
first initializing a video recognition model with weights of a pretrained image
model and then conducting end-to-end training on videos. This enables the video
network to benefit from the pretrained image model. However, this requires
substantial computation and memory resources for finetuning on videos and the
alternative of directly using pretrained image features without finetuning the
image backbone leads to subpar results. Fortunately, recent advances in
Contrastive Vision-Language Pre-training (CLIP) pave the way for a new route
for visual recognition tasks. Pretrained on large open-vocabulary image-text
pair data, these models learn powerful visual representations with rich
semantics. In this paper, we present Efficient Video Learning (EVL) -- an
efficient framework for directly training high-quality video recognition models
with frozen CLIP features. Specifically, we employ a lightweight Transformer
decoder and learn a query token to dynamically collect frame-level spatial
features from the CLIP image encoder. Furthermore, we adopt a local temporal
module in each decoder layer to discover temporal clues from adjacent frames
and their attention maps. We show that despite being efficient to train with a
frozen backbone, our models learn high quality video representations on a
variety of video recognition datasets. Code is available at
https://github.com/OpenGVLab/efficient-video-recognition.
- Abstract(参考訳): まず、事前訓練された画像モデルの重み付きビデオ認識モデルを初期化し、次に、ビデオ上でエンドツーエンドのトレーニングを実行する。
これにより、ビデオネットワークは事前訓練された画像モデルの恩恵を受けることができる。
しかし、ビデオの微調整には、かなりの計算とメモリリソースが必要であり、画像バックボーンを微調整することなく、事前訓練された画像機能を直接使用する代替手段は、サブパー結果につながる。
幸いなことに、Contrastive Vision-Language Pre-Training(CLIP)の最近の進歩は、視覚認識タスクのための新しいルートの道を開いた。
大規模なオープンボカブラリなイメージテキストペアデータで事前トレーニングされたこれらのモデルは、豊富なセマンティクスを持つ強力な視覚的表現を学習する。
本稿では,凍ったCLIP機能を備えた高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークとして,EVL(Efficient Video Learning)を提案する。
具体的には,軽量トランスフォーマーデコーダを用いてクエリトークンを学習し,CLIP画像エンコーダからフレームレベルの空間的特徴を動的に収集する。
さらに,各デコーダ層に局所時間モジュールを適用し,隣接するフレームとその注意マップから時間的手がかりを検出する。
凍結したバックボーンでトレーニングすることが効率的であるにもかかわらず、我々のモデルは様々なビデオ認識データセットで高品質なビデオ表現を学ぶ。
コードはhttps://github.com/opengvlab/ efficient-video-recognitionで入手できる。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。