論文の概要: CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2201.05729v1
- Date: Sat, 15 Jan 2022 01:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 12:59:16.454698
- Title: CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks
- Title(参考訳): CLIP-TD:視覚言語タスクのためのCLIPターゲット蒸留
- Authors: Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Jianwei Yang,
Xiyang Dai, Bin Xiao, Haoxuan You, Shih-Fu Chang, Lu Yuan
- Abstract要約: 対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
- 参考スコア(独自算出の注目度): 85.37552507367175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive language-image pretraining (CLIP) links vision and language
modalities into a unified embedding space, yielding the tremendous potential
for vision-language (VL) tasks. While early concurrent works have begun to
study this potential on a subset of tasks, important questions remain: 1) What
is the benefit of CLIP on unstudied VL tasks? 2) Does CLIP provide benefit in
low-shot or domain-shifted scenarios? 3) Can CLIP improve existing approaches
without impacting inference or pretraining complexity? In this work, we seek to
answer these questions through two key contributions. First, we introduce an
evaluation protocol that includes Visual Commonsense Reasoning (VCR), Visual
Entailment (SNLI-VE), and Visual Question Answering (VQA), across a variety of
data availability constraints and conditions of domain shift. Second, we
propose an approach, named CLIP Targeted Distillation (CLIP-TD), to
intelligently distill knowledge from CLIP into existing architectures using a
dynamically weighted objective applied to adaptively selected tokens per
instance. Experiments demonstrate that our proposed CLIP-TD leads to
exceptional gains in the low-shot (up to 51.9%) and domain-shifted (up to
71.3%) conditions of VCR, while simultaneously improving performance under
standard fully-supervised conditions (up to 2%), achieving state-of-art
performance on VCR compared to other single models that are pretrained with
image-text data only. On SNLI-VE, CLIP-TD produces significant gains in
low-shot conditions (up to 6.6%) as well as fully supervised (up to 3%). On
VQA, CLIP-TD provides improvement in low-shot (up to 9%), and in
fully-supervised (up to 1.3%). Finally, CLIP-TD outperforms concurrent works
utilizing CLIP for finetuning, as well as baseline naive distillation
approaches. Code will be made available.
- Abstract(参考訳): 対照的に、CLIP(Contrastive Language-image Pretraining)は、視覚と言語モダリティを統合的な埋め込み空間にリンクし、視覚言語(VL)タスクの膨大な可能性をもたらす。
初期の同時作業はタスクのサブセットでこの可能性を研究し始めたが、重要な疑問は残る。
1) 未調査VLタスクにおけるCLIPの利点は何か?
2) CLIPはローショットやドメインシフトのシナリオでメリットがあるか?
3) CLIPは推論や事前学習の複雑さに影響を与えることなく既存のアプローチを改善することができるか?
本稿では,2つの重要なコントリビューションを通じて,これらの質問に答える。
まず,VCR(Visual Commonsense Reasoning),SNLI-VE(Visual Entailment),VQA(Visual Question Answering)などを含む,さまざまなデータ可用性制約とドメインシフト条件に関する評価プロトコルを紹介する。
次に,CLIIP-TD (CLIP Targeted Distillation) という手法を提案し,CLIPから既存のアーキテクチャに知識をインテリジェントに蒸留し,動的に重み付けされた目的をインスタンス毎に適応的に選択したトークンに適用する。
実験により、提案したCLIP-TDは、VCRの低ショット(51.9%)とドメインシフト(71.3%)の条件で例外的に向上し、同時に標準の完全教師付き条件(最大2%)下での性能向上を実現し、画像テキストデータのみで事前訓練された他のシングルモデルと比較して、VCR上での最先端のパフォーマンスを達成することができた。
SNLI-VEでは、CLIP-TDは低撮影条件(最大6.6%)と全監督条件(最大3%)で著しく上昇する。
VQAでは、CLIP-TDはローショット(最大9%)とフル教師付き(最大1.3%)の改善を提供する。
最後に、CLIP-TDは、CLIPを微調整に利用すると同時に、ベースラインナイーブ蒸留法よりも優れている。
コードは利用可能になる。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z) - Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark
of Data, Model, and Supervision [26.13829720290035]
Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。
私たちはCLIPとその変異体を評価し、分析し、ベンチマークする最初の試みであるCLIP-benchmarkを提案する。
論文 参考訳(メタデータ) (2022-03-11T08:41:00Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。