論文の概要: Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data
- arxiv url: http://arxiv.org/abs/2310.05010v1
- Date: Sun, 8 Oct 2023 04:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:36:05.405064
- Title: Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data
- Title(参考訳): アーキテクチャ、最適化、データを改善するオープンボキャブラリなビデオクリップモデルの構築
- Authors: Zuxuan Wu, Zejia Weng, Wujian Peng, Xitong Yang, Ang Li, Larry S.
Davis, Yu-Gang Jiang
- Abstract要約: 本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
- 参考スコア(独自算出の注目度): 102.0069667710562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant results achieved by Contrastive Language-Image
Pretraining (CLIP) in zero-shot image recognition, limited effort has been made
exploring its potential for zero-shot video recognition. This paper presents
Open-VCLIP++, a simple yet effective framework that adapts CLIP to a strong
zero-shot video classifier, capable of identifying novel actions and events
during testing. Open-VCLIP++ minimally modifies CLIP to capture
spatial-temporal relationships in videos, thereby creating a specialized video
classifier while striving for generalization. We formally demonstrate that
training Open-VCLIP++ is tantamount to continual learning with zero historical
data. To address this problem, we introduce Interpolated Weight Optimization, a
technique that leverages the advantages of weight interpolation during both
training and testing. Furthermore, we build upon large language models to
produce fine-grained video descriptions. These detailed descriptions are
further aligned with video features, facilitating a better transfer of CLIP to
the video domain. Our approach is evaluated on three widely used action
recognition datasets, following a variety of zero-shot evaluation protocols.
The results demonstrate that our method surpasses existing state-of-the-art
techniques by significant margins. Specifically, we achieve zero-shot accuracy
scores of 88.1%, 58.7%, and 81.2% on UCF, HMDB, and Kinetics-600 datasets
respectively, outpacing the best-performing alternative methods by 8.5%, 8.2%,
and 12.3%. We also evaluate our approach on the MSR-VTT video-text retrieval
dataset, where it delivers competitive video-to-text and text-to-video
retrieval performance, while utilizing substantially less fine-tuning data
compared to other methods. Code is released at
https://github.com/wengzejia1/Open-VCLIP.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) によるゼロショット画像認識における大きな成果にもかかわらず、ゼロショットビデオ認識の可能性を探究する努力は限られている。
本稿では、CLIPを強力なゼロショットビデオ分類器に適用し、テスト中に新しいアクションやイベントを識別できる、シンプルで効果的なフレームワークであるOpen-VCLIP++を提案する。
open-vclip++はクリップを最小限に修正し、ビデオ内の空間的-時間的関係をキャプチャする。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを正式に証明した。
この問題に対処するために、トレーニングとテストの両方においてウェイト補間の利点を活用する手法であるInterpolated Weight Optimizationを導入する。
さらに,大規模言語モデルを構築し,詳細な映像記述を作成する。
これらの詳細な説明はさらにビデオ機能と一致しており、CLIPをビデオドメインに転送するのに役立つ。
提案手法は,様々なゼロショット評価プロトコルに従って,広く使用されている3つの行動認識データセット上で評価される。
その結果,本手法は既存の最先端技術を大幅に超えていることがわかった。
具体的には、UCF、HMDB、Kinetics-600データセットにおいて、ゼロショット精度スコアが88.1%、58.7%、81.2%に達し、最も優れた代替手法である8.5%、8.2%、12.3%を上回った。
また,msr-vttビデオテキスト検索データセットのアプローチを評価し,他の手法に比べて微調整データを大幅に削減しつつ,競合するテキスト間およびテキスト間検索性能を提供する。
コードはhttps://github.com/wengzejia1/Open-VCLIPで公開されている。
関連論文リスト
- Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。