論文の概要: CLIP-KD: An Empirical Study of Distilling CLIP Models
- arxiv url: http://arxiv.org/abs/2307.12732v1
- Date: Mon, 24 Jul 2023 12:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 14:33:58.715236
- Title: CLIP-KD: An Empirical Study of Distilling CLIP Models
- Title(参考訳): CLIP-KD : 蒸留CLIPモデルに関する実証的研究
- Authors: Chuanguang Yang, Zhulin An, Libo Huang, Junyu Bi, Xinqiang Yu, Han
Yang, Yongjun Xu
- Abstract要約: 本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
MSE損失による最も単純な特徴の模倣が最善であることを示す。
本研究では,1500万対(画像,テキスト)で学習した学生ネットワークを抽出するために,統一的な手法を適用した。
- 参考スコア(独自算出の注目度): 14.384452592716896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP has become a promising language-supervised visual pre-training framework
and achieves excellent performance over a wide range of tasks. This paper aims
to distill small CLIP models supervised by a large teacher CLIP model. We
propose several distillation strategies, including relation, feature, gradient
and contrastive paradigm, to examine the impact on CLIP distillation. We show
that the simplest feature mimicry with MSE loss performs best. Moreover,
interactive contrastive learning and relation-based distillation are also
critical in performance improvement. We apply the unified method to distill
several student networks trained on 15 million (image, text) pairs.
Distillation improves the student CLIP models consistently over zero-shot
ImageNet classification and cross-modal retrieval benchmarks. We hope our
empirical study will become an important baseline for future CLIP distillation
research. The code is available at \url{https://github.com/winycg/CLIP-KD}.
- Abstract(参考訳): CLIPは、有望な言語によるビジュアル事前トレーニングフレームワークとなり、幅広いタスクで優れたパフォーマンスを実現している。
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
CLIP蒸留への影響を検討するために, 関係, 特徴, 勾配, コントラストパラダイムなど, いくつかの蒸留戦略を提案する。
MSE損失による最も単純な特徴の模倣が最善であることを示す。
さらに,対話型コントラスト学習と関係性に基づく蒸留も性能向上に重要である。
本研究では,1500万対(画像,テキスト)で学習した学生ネットワークを抽出するために,統一手法を適用した。
蒸留は、ゼロショットイメージネット分類とクロスモーダル検索ベンチマークで一貫して学生クリップモデルを改善する。
今後のCLIP蒸留研究において,実証研究が重要なベースラインになることを願っています。
コードは \url{https://github.com/winycg/CLIP-KD} で公開されている。
関連論文リスト
- Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - Augmenting CLIP with Improved Visio-Linguistic Reasoning [51.135606355630046]
本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。
CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文 参考訳(メタデータ) (2022-10-06T17:59:15Z) - Don't Stop Learning: Towards Continual Learning for the CLIP Model [21.212839450030838]
Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。
本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。
筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T13:03:14Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。