論文の概要: CLIP-KD: An Empirical Study of CLIP Model Distillation
- arxiv url: http://arxiv.org/abs/2307.12732v2
- Date: Tue, 7 May 2024 16:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:23:22.730900
- Title: CLIP-KD: An Empirical Study of CLIP Model Distillation
- Title(参考訳): CLIP-KD : CLIPモデル蒸留の実証的研究
- Authors: Chuanguang Yang, Zhulin An, Libo Huang, Junyu Bi, Xinqiang Yu, Han Yang, Boyu Diao, Yongjun Xu,
- Abstract要約: 本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。
教師と生徒のエンコーダ間の対話的コントラスト学習は、性能向上にも有効である。
- 参考スコア(独自算出の注目度): 24.52910358842176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has become a promising language-supervised visual pre-training framework. This paper aims to distill small CLIP models supervised by a large teacher CLIP model. We propose several distillation strategies, including relation, feature, gradient and contrastive paradigms, to examine the effectiveness of CLIP-Knowledge Distillation (KD). We show that a simple feature mimicry with Mean Squared Error loss works surprisingly well. Moreover, interactive contrastive learning across teacher and student encoders is also effective in performance improvement. We explain that the success of CLIP-KD can be attributed to maximizing the feature similarity between teacher and student. The unified method is applied to distill several student models trained on CC3M+12M. CLIP-KD improves student CLIP models consistently over zero-shot ImageNet classification and cross-modal retrieval benchmarks. When using ViT-L/14 pretrained on Laion-400M as the teacher, CLIP-KD achieves 57.5\% and 55.4\% zero-shot top-1 ImageNet accuracy over ViT-B/16 and ResNet-50, surpassing the original CLIP without KD by 20.5\% and 20.1\% margins, respectively. Our code is released on https://github.com/winycg/CLIP-KD.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は、有望な言語による視覚的事前トレーニングフレームワークとなっている。
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
CLIP-Knowledge Distillation (KD) の有効性を検討するために, 関係, 特徴, 勾配, コントラストパラダイムなどの蒸留手法を提案する。
Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。
また,教師と生徒のエンコーダ間での対話的コントラスト学習も性能向上に有効である。
CLIP-KDの成功は,教師と学生の特徴的類似性を最大化することに起因すると説明できる。
CC3M+12Mで訓練された複数の学生モデルを蒸留するために, この統一手法を適用した。
CLIP-KDは、ゼロショットイメージネット分類とクロスモーダル検索ベンチマークよりも、学生のCLIPモデルを一貫して改善する。
Laion-400Mで事前訓練されたViT-L/14を教師として使用する場合、CLIP-KDは57.5\%と55.4\%のゼロショットトップ-1 ImageNetの精度をViT-B/16とResNet-50で達成し、KDのないオリジナルのCLIPをそれぞれ20.5\%と20.1\%のマージンで上回った。
私たちのコードはhttps://github.com/winycg/CLIP-KD.comで公開されています。
関連論文リスト
- Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - From Knowledge Distillation to Self-Knowledge Distillation: A Unified
Approach with Normalized Loss and Customized Soft Labels [23.58665464454112]
自己知識蒸留(Self-Knowledge Distillation, KD)は、教師の予測ロジットをソフトラベルとして使用して生徒を指導する。
Universal Self-Knowledge Distillation (USKD)は、教師がいないターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。
論文 参考訳(メタデータ) (2023-03-23T02:59:36Z) - Attentive Mask CLIP [48.206857783966996]
テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。
提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
論文 参考訳(メタデータ) (2022-12-16T18:59:12Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。
CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文 参考訳(メタデータ) (2022-10-06T17:59:15Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。