論文の概要: EZ-CLIP: Efficient Zeroshot Video Action Recognition
- arxiv url: http://arxiv.org/abs/2312.08010v2
- Date: Fri, 19 Jan 2024 12:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 18:30:51.761040
- Title: EZ-CLIP: Efficient Zeroshot Video Action Recognition
- Title(参考訳): EZ-CLIP:効率的なゼロショットビデオアクション認識
- Authors: Shahzad Ahmad, Sukalpa Chanda, Yogesh S Rawat
- Abstract要約: 本稿では,CLIPの簡易かつ効率的な適応であるEZ-CLIPを提案する。
本研究では,時間的視覚的プロンプトに焦点をあてる新たな学習目標を提案する。
EZ-CLIPは1つのGPUで効率的にトレーニングすることができ、いくつかの評価で既存のアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 13.403597169664803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large-scale pre-training of visual-language models on
paired image-text data have demonstrated impressive generalization capabilities
for zero-shot tasks. Building on this success, efforts have been made to adapt
these image-based visual-language models, such as CLIP, for videos extending
their zero-shot capabilities to the video domain. While these adaptations have
shown promising results, they come at a significant computational cost and
struggle with effectively modeling the crucial temporal aspects inherent to the
video domain. In this study, we present EZ-CLIP, a simple and efficient
adaptation of CLIP that addresses these challenges. EZ-CLIP leverages temporal
visual prompting for seamless temporal adaptation, requiring no fundamental
alterations to the core CLIP architecture while preserving its remarkable
generalization abilities. Moreover, we introduce a novel learning objective
that guides the temporal visual prompts to focus on capturing motion, thereby
enhancing its learning capabilities from video data. We conducted extensive
experiments on five different benchmark datasets, thoroughly evaluating EZ-CLIP
for zero-shot learning and base-to-novel video action recognition, and also
demonstrating its potential for few-shot generalization.Impressively, with a
mere 5.2 million learnable parameters (as opposed to the 71.1 million in the
prior best model), EZ-CLIP can be efficiently trained on a single GPU,
outperforming existing approaches in several evaluations.
- Abstract(参考訳): ペア画像テキストデータ上での視覚言語モデルの大規模事前学習の進歩は、ゼロショットタスクに対する印象的な一般化機能を示している。
この成功に基づいて、ビデオドメインにゼロショット機能を拡張したビデオに対して、CLIPのようなイメージベースのビジュアル言語モデルを適用する取り組みが実施された。
これらの適応は有望な結果を示しているが、計算コストが大きく、ビデオ領域に固有の重要な時間的側面を効果的にモデル化するのに苦労している。
本研究では,これらの課題に対処するCLIPの簡易かつ効率的な適応であるEZ-CLIPを提案する。
EZ-CLIPは、時間的視覚的プロンプトをシームレスな時間的適応に利用し、その顕著な一般化能力を維持しながらコアCLIPアーキテクチャに根本的な変更を加える必要はない。
さらに,映像データからの学習能力を高めるために,時間的視覚プロンプトを映像キャプチャに誘導する新しい学習目標を提案する。
我々は5つのベンチマークデータセットに関する広範な実験を行い、ゼロショット学習のためのEZ-CLIPとベース・ツー・ノーベルなビデオアクション認識の可能性を徹底的に評価し、また、数ショットの一般化の可能性を示した。
関連論文リスト
- Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A CLIP-Hitchhiker's Guide to Long Video Retrieval [84.36155238161462]
長いビデオ検索のための画像テキストモデルの適応性について検討する。
近年の研究では,CLIPを用いた映像検索における最先端性能が実証されている。
クエリスコーディングによるフレーム埋め込みの重み付き平均値の単純かつ効果的なベースラインは、大きな改善であることがわかった。
論文 参考訳(メタデータ) (2022-05-17T17:26:23Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。