論文の概要: Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization
- arxiv url: http://arxiv.org/abs/2302.00624v3
- Date: Wed, 31 May 2023 02:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 12:09:11.061813
- Title: Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization
- Title(参考訳): Open-VCLIP: 補間重み最適化によるCLIPをオープン語彙ビデオモデルに変換する
- Authors: Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
- 参考スコア(独自算出の注目度): 82.75718846187685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) has demonstrated impressive
zero-shot learning abilities for image understanding, yet limited effort has
been made to investigate CLIP for zero-shot video recognition. We introduce
Open-VCLIP, a simple yet effective approach that transforms CLIP into a strong
zero-shot video classifier that can recognize unseen actions and events at test
time. Our framework extends CLIP with minimal modifications to model
spatial-temporal relationships in videos, making it a specialized video
classifier, while striving for generalization. We formally show that training
an Open-VCLIP is equivalent to continual learning with zero historical data. To
address this problem, we propose Interpolated Weight Optimization, which
utilizes the benefit of weight interpolation in both training and test time. We
evaluate our method on three popular and challenging action recognition
datasets following various zero-shot evaluation protocols and we demonstrate
our approach outperforms state-of-the-art methods by clear margins. In
particular, we achieve 87.9%, 58.3%, 81.1% zero-shot accuracy on UCF, HMDB and
Kinetics-600 respectively, outperforming state-of-the-art methods by 8.3%, 7.8%
and 12.2%. Code is released at https://github.com/wengzejia1/Open-VCLIP.
- Abstract(参考訳): コントラスト型言語イメージプリトレーニング(clip)は、画像理解のための印象的なゼロショット学習能力を示しているが、ゼロショットビデオ認識のためのクリップを調査するために限定的な努力がなされている。
これは、CLIPを強力なゼロショットビデオ分類器に変換し、テスト時に目に見えないアクションやイベントを認識する、シンプルで効果的なアプローチである。
私たちのフレームワークはクリップを最小限の修正で拡張し、ビデオ内の空間と時間の関係をモデル化します。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
そこで本研究では,トレーニング時間とテスト時間の両方において重み補間の利点を生かした補間重み最適化を提案する。
提案手法は,様々なゼロショット評価プロトコルに従って,人気かつ挑戦的な3つの行動認識データセット上で評価し,そのアプローチが最先端の手法よりも明確なマージンで優れていることを示す。
特に,UCF,HMDB,Kineetics-600では,87.9%,58.3%,81.1%のゼロショット精度を達成し,最先端の手法では8.3%,7.8%,12.2%を上回った。
コードはhttps://github.com/wengzejia1/Open-VCLIPで公開されている。
関連論文リスト
- Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。