Fugu-MT 論文翻訳(概要): CLIP-KD: An Empirical Study of Distilling CLIP Models

論文の概要: CLIP-KD: An Empirical Study of Distilling CLIP Models

arxiv url: http://arxiv.org/abs/2307.12732v1
Date: Mon, 24 Jul 2023 12:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 14:33:58.715236
Title: CLIP-KD: An Empirical Study of Distilling CLIP Models
Title（参考訳）: CLIP-KD : 蒸留CLIPモデルに関する実証的研究
Authors: Chuanguang Yang, Zhulin An, Libo Huang, Junyu Bi, Xinqiang Yu, Han Yang, Yongjun Xu
Abstract要約: 本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。 MSE損失による最も単純な特徴の模倣が最善であることを示す。本研究では,1500万対(画像,テキスト)で学習した学生ネットワークを抽出するために,統一的な手法を適用した。
参考スコア（独自算出の注目度）: 14.384452592716896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: CLIP has become a promising language-supervised visual pre-training framework and achieves excellent performance over a wide range of tasks. This paper aims to distill small CLIP models supervised by a large teacher CLIP model. We propose several distillation strategies, including relation, feature, gradient and contrastive paradigm, to examine the impact on CLIP distillation. We show that the simplest feature mimicry with MSE loss performs best. Moreover, interactive contrastive learning and relation-based distillation are also critical in performance improvement. We apply the unified method to distill several student networks trained on 15 million (image, text) pairs. Distillation improves the student CLIP models consistently over zero-shot ImageNet classification and cross-modal retrieval benchmarks. We hope our empirical study will become an important baseline for future CLIP distillation research. The code is available at \url{https://github.com/winycg/CLIP-KD}.
Abstract（参考訳）: CLIPは、有望な言語によるビジュアル事前トレーニングフレームワークとなり、幅広いタスクで優れたパフォーマンスを実現している。本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。 CLIP蒸留への影響を検討するために, 関係, 特徴, 勾配, コントラストパラダイムなど, いくつかの蒸留戦略を提案する。 MSE損失による最も単純な特徴の模倣が最善であることを示す。さらに,対話型コントラスト学習と関係性に基づく蒸留も性能向上に重要である。本研究では,1500万対(画像,テキスト)で学習した学生ネットワークを抽出するために,統一手法を適用した。蒸留は、ゼロショットイメージネット分類とクロスモーダル検索ベンチマークで一貫して学生クリップモデルを改善する。今後のCLIP蒸留研究において,実証研究が重要なベースラインになることを願っています。コードは \url{https://github.com/winycg/CLIP-KD} で公開されている。

関連論文リスト

Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文参考訳（メタデータ） (2025-05-25T07:08:07Z)
CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文参考訳（メタデータ） (2025-02-25T13:09:34Z)
Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。 MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文参考訳（メタデータ） (2023-09-28T17:59:56Z)
TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。 YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文参考訳（メタデータ） (2023-09-21T17:59:53Z)
From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels [23.58665464454112]
自己知識蒸留(Self-Knowledge Distillation, KD)は、教師の予測ロジットをソフトラベルとして使用して生徒を指導する。 Universal Self-Knowledge Distillation (USKD)は、教師がいないターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。
論文参考訳（メタデータ） (2023-03-23T02:59:36Z)
Attentive Mask CLIP [48.206857783966996]
テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
論文参考訳（メタデータ） (2022-12-16T18:59:12Z)
CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文参考訳（メタデータ） (2022-12-12T18:59:59Z)
Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。 77～958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文参考訳（メタデータ） (2022-11-02T17:47:23Z)
CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。 CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文参考訳（メタデータ） (2022-10-06T17:59:15Z)
CES-KD: Curriculum-based Expert Selection for Guided Knowledge Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。 CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文参考訳（メタデータ） (2022-09-15T21:02:57Z)
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文参考訳（メタデータ） (2022-01-15T01:54:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。