論文の概要: Knowledge Distillation with the Reused Teacher Classifier
- arxiv url: http://arxiv.org/abs/2203.14001v1
- Date: Sat, 26 Mar 2022 06:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:41:31.909796
- Title: Knowledge Distillation with the Reused Teacher Classifier
- Title(参考訳): 再利用教師分類器による知識蒸留
- Authors: Defang Chen, Jian-Ping Mei, Hailin Zhang, Can Wang, Yan Feng, Chun
Chen
- Abstract要約: 簡単な知識蒸留技術では,教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
提案手法は, プロジェクタの追加による圧縮率の最小コストで, 最先端の結果を得る。
- 参考スコア(独自算出の注目度): 31.22117343316628
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge distillation aims to compress a powerful yet cumbersome teacher
model into a lightweight student model without much sacrifice of performance.
For this purpose, various approaches have been proposed over the past few
years, generally with elaborately designed knowledge representations, which in
turn increase the difficulty of model development and interpretation. In
contrast, we empirically show that a simple knowledge distillation technique is
enough to significantly narrow down the teacher-student performance gap. We
directly reuse the discriminative classifier from the pre-trained teacher model
for student inference and train a student encoder through feature alignment
with a single $\ell_2$ loss. In this way, the student model is able to achieve
exactly the same performance as the teacher model provided that their extracted
features are perfectly aligned. An additional projector is developed to help
the student encoder match with the teacher classifier, which renders our
technique applicable to various teacher and student architectures. Extensive
experiments demonstrate that our technique achieves state-of-the-art results at
the modest cost of compression ratio due to the added projector.
- Abstract(参考訳): 知識蒸留は、強力な教師モデルを、パフォーマンスを犠牲にすることなく、軽量な学生モデルに圧縮することを目的としている。
この目的のために、モデル開発と解釈の難しさを増大させる精巧に設計された知識表現を用いて、近年様々なアプローチが提案されている。
対照的に、簡単な知識蒸留技術は教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
我々は,事前学習した教師モデルから識別的分類器を直接再利用し,学生エンコーダを1ドルの損失で特徴調整することで訓練する。
このようにして、抽出された特徴が完全に整合していることから、生徒モデルは教師モデルと全く同じ性能を達成できる。
このプロジェクタは,生徒エンコーダが教師分類器とマッチするのを助けるために開発され,様々な教師や学生のアーキテクチャに適用できる。
本手法は,プロジェクタの追加による圧縮率の微妙なコストで,最先端の結果が得られることを示す。
関連論文リスト
- Generalizing Teacher Networks for Effective Knowledge Distillation Across Student Architectures [4.960025399247103]
Generic Teacher Network (GTN) は、知識を有限のアーキテクチャプールからサンプリングされた任意の学生モデルに効果的に伝達できる汎用的な教師を作成するための、一発のKD-awareトレーニングである。
本手法は, 総合的なKD効果の向上と, プール内の生徒間での総合教師のトレーニングコストの最小化を両立させる。
論文 参考訳(メタデータ) (2024-07-22T20:34:00Z) - Understanding the Effects of Projectors in Knowledge Distillation [31.882356225974632]
学生と教師が同じ特徴次元を持つ場合でも、プロジェクターを追加することで蒸留性能が向上する。
本稿では、プロジェクターが果たす暗黙の役割について検討するが、これまで見過ごされてきた。
プロジェクターの正の効果に感化されて, プロジェクターアンサンブルを用いた特徴蒸留法を提案し, 蒸留性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-26T06:30:39Z) - Can a student Large Language Model perform as well as it's teacher? [0.0]
知識蒸留は、高容量の「教師」モデルから流線形の「学生」モデルに知識を伝達することを目的としている。
本稿では,知識蒸留のパラダイムについて概観する。
論文 参考訳(メタデータ) (2023-10-03T20:34:59Z) - Student-friendly Knowledge Distillation [1.5469452301122173]
そこで我々は,教師による知識表現の簡易化を目的として,学生に優しい知識蒸留(SKD)を提案する。
SKDは、軟化処理と学習簡略化器とを含む。
CIFAR-100とImageNetのデータセットを用いた実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-05-18T11:44:30Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。