論文の概要: CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment
- arxiv url: http://arxiv.org/abs/2209.06430v1
- Date: Wed, 14 Sep 2022 05:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:33:19.327478
- Title: CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment
- Title(参考訳): CLIP-ViP:ビデオ言語表現アライメントへの事前学習画像テキストモデルの適用
- Authors: Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang
Li, Jiebo Luo
- Abstract要約: 本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
- 参考スコア(独自算出の注目度): 146.3128011522151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-trained image-text models, like CLIP, have demonstrated the strong
power of vision-language representation learned from a large scale of
web-collected image-text data. In light of the well-learned visual features,
some existing works transfer image representation to video domain and achieve
good results. However, how to utilize image-language pre-trained model (e.g.,
CLIP) for video-language pre-training (post-pretraining) is still under
explored. In this paper, we investigate two questions: 1) what are the factors
hindering post-pretraining CLIP to further improve the performance on
video-language tasks? and 2) how to mitigate the impact of these factors?
Through a series of comparative experiments and analyses, we find that the data
scale and domain gap between language sources have great impacts. Motivated by
these, we propose a Omnisource Cross-modal Learning method equipped with a
Video Proxy mechanism on the basis of CLIP, namely CLIP-ViP. Extensive results
show that our approach improves the performance of CLIP on video-text retrieval
by a large margin. Our model also achieves SOTA results on a variety of
datasets, including MSR-VTT, DiDeMo, LSMDC, and ActivityNet. We release our
code and pre-trained CLIP-ViP models at
https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP.
- Abstract(参考訳): clipのような事前学習された画像テキストモデルは、大規模な画像テキストデータから学習された視覚言語表現の強力なパワーを実証している。
十分に学習された視覚的特徴から、既存の作品では画像表現をビデオ領域に転送し、良好な結果が得られる。
しかし、ビデオ言語事前学習(ポストプレトレーニング)に画像言語事前学習モデル(例えばCLIP)を利用する方法はまだ検討中である。
本稿では2つの質問について考察する。
1) ビデオ言語タスクのパフォーマンス向上のために,CLIPの事前学習を妨げている要因は何か?
そして
2) これらの要因の影響を軽減するには?
比較実験と分析によって、データスケールと言語ソース間のドメイン間ギャップに大きな影響があることが分かりました。
そこで本研究では,CLIPに基づくビデオプロキシ機構を備えたOmnisourceクロスモーダル学習手法を提案する。
以上の結果から,CLIPによるビデオテキスト検索の性能は,大きなマージンで向上することが示唆された。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
コードと事前トレーニングされたCLIP-ViPモデルをhttps://github.com/microsoft/XPretrain/tree/main/CLIP-ViPでリリースします。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - RWKV-CLIP: A Robust Vision-Language Representation Learner [31.501759213619646]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に改善した。
本稿では,Large Language Models(LLM)を利用して,Webベースのテキスト,合成キャプション,検出タグからコンテンツを合成・洗練する多種多様な記述生成フレームワークを提案する。
RWKV-CLIPは,変換器の効果的な並列学習とRNNの効率的な推論を組み合わせた,最初のRWKV駆動型視覚言語表現学習モデルである。
論文 参考訳(メタデータ) (2024-06-11T06:10:46Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip
Retrieval [31.7091206926183]
CLIP(Contrastive Language-Image Pre-training)は、Web収集された画像テキストデータセットから学習する視覚概念の力を示した。
本稿では,CLIPモデルの知識をエンドツーエンドにビデオ言語検索に転送するCLIP4Clipモデルを提案する。
論文 参考訳(メタデータ) (2021-04-18T13:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。