論文の概要: CLIP-Embed-KD: Computationally Efficient Knowledge Distillation Using Embeddings as Teachers
- arxiv url: http://arxiv.org/abs/2404.06170v1
- Date: Tue, 9 Apr 2024 09:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:19:37.062998
- Title: CLIP-Embed-KD: Computationally Efficient Knowledge Distillation Using Embeddings as Teachers
- Title(参考訳): CLIP-Embed-KD: 埋め込みを教師として用いた効率的な知識蒸留
- Authors: Lakshmi Nair,
- Abstract要約: 対照的な言語-画像事前学習(CLIP)は、ゼロショットの一般化機能を改善することが示されている。
埋め込みを教師として活用することで,CLIPを効率的な知識蒸留のために拡張する。
- 参考スコア(独自算出の注目度): 1.6317061277457001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has been shown to improve zero-shot generalization capabilities of language and vision models. In this paper, we extend CLIP for efficient knowledge distillation, by utilizing embeddings as teachers. Typical knowledge distillation frameworks require running forward passes through a teacher model, which is often prohibitive in the case of billion or trillion parameter teachers. In these cases, using only the embeddings of the teacher models to guide the distillation can yield significant computational savings. Our preliminary findings show that CLIP-based knowledge distillation with embeddings can outperform full scale knowledge distillation using $9\times$ less memory and $8\times$ less training time. Code available at: https://github.com/lnairGT/CLIP-Distillation/
- Abstract(参考訳): 対照的な言語-画像事前学習(CLIP)は、言語と視覚モデルのゼロショット一般化能力を改善することが示されている。
本稿では,CLIPを拡張して知識蒸留の効率化を図り,埋め込みを教師として活用する。
典型的な知識蒸留フレームワークは、数十億のパラメーターの教師の場合、しばしば禁止される教師モデルを通して前方通過する必要がある。
これらの場合、蒸留を導くために教師モデルの埋め込みのみを使用すると、かなりの計算的節約が得られる。
予備的な知見は,CLIPを用いた知識蒸留は,9-times$少ないメモリと8-times$少ないトレーニング時間を用いて,完全な知識蒸留よりも優れていることを示している。
https://github.com/lnairGT/CLIP-Distillation/
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Continual Distillation Learning [9.948802793399647]
継続学習(CL)における知識蒸留(KD)を考慮した連続蒸留学習(CDL)の問題について検討する。
教師モデルと学生モデルは一連の課題を学習し、生徒モデルを改善するために教師モデルに関する知識を学生に蒸留する。
CDL-Promptという新しい手法を導入し,教師-学生モデルの構築にアクセプティブベースの連続学習モデルを用いた。
論文 参考訳(メタデータ) (2024-07-18T21:52:57Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - Unlimited Knowledge Distillation for Action Recognition in the Dark [69.16824521829024]
既存の知識組み立て手法では、複数の教師モデルからの知識を学生モデルに抽出するために大量のGPUメモリを必要とする。
本稿では,無制限な知識蒸留(UKD)を提案する。
実験の結果,UKDで蒸留した単一ストリームネットワークは2ストリームネットワークを超えていることがわかった。
論文 参考訳(メタデータ) (2023-08-18T06:04:39Z) - CLIP-KD: An Empirical Study of CLIP Model Distillation [24.52910358842176]
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。
教師と生徒のエンコーダ間の対話的コントラスト学習は、性能向上にも有効である。
論文 参考訳(メタデータ) (2023-07-24T12:24:07Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Learning the Wrong Lessons: Inserting Trojans During Knowledge
Distillation [68.8204255655161]
トロイの木馬の攻撃は、ディープラーニングモデルの基本的脆弱性を明らかにし、同時に顕著に有名になった。
我々は,教師に顕著な振る舞いを導入することなく,生徒モデルにトロイの木馬を埋め込むために,乱れのないデータ知識蒸留プロセスを活用することを目的とする。
我々は、生徒の精度を効果的に低減し、教師のパフォーマンスを変えず、実際に効率的に構築可能なトロイの木馬攻撃を考案した。
論文 参考訳(メタデータ) (2023-03-09T21:37:50Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Iterative Self Knowledge Distillation -- From Pothole Classification to
Fine-Grained and COVID Recognition [6.744385328015559]
ポトホールの分類は、自動車事故や修理法案からドライバーを救うための道路検査車両にとって重要な課題となっている。
軽量ポットホール分類器を訓練するための反復自己知識蒸留(ISKD)を提案する。
論文 参考訳(メタデータ) (2022-02-04T17:47:43Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。