論文の概要: Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT
- arxiv url: http://arxiv.org/abs/2009.14822v2
- Date: Fri, 11 Dec 2020 09:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:52:45.818933
- Title: Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT
- Title(参考訳): Pea-KD:BERT上のパラメータ効率と正確な知識蒸留
- Authors: Ikhyun Cho, U Kang
- Abstract要約: 知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
- 参考スコア(独自算出の注目度): 20.732095457775138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we efficiently compress a model while maintaining its performance?
Knowledge Distillation (KD) is one of the widely known methods for model
compression. In essence, KD trains a smaller student model based on a larger
teacher model and tries to retain the teacher model's level of performance as
much as possible. However, existing KD methods suffer from the following
limitations. First, since the student model is smaller in absolute size, it
inherently lacks model capacity. Second, the absence of an initial guide for
the student model makes it difficult for the student to imitate the teacher
model to its fullest. Conventional KD methods yield low performance due to
these limitations. In this paper, we propose Pea-KD (Parameter-efficient and
accurate Knowledge Distillation), a novel approach to KD. Pea-KD consists of
two main parts: Shuffled Parameter Sharing (SPS) and Pretraining with Teacher's
Predictions (PTP). Using this combination, we are capable of alleviating the
KD's limitations. SPS is a new parameter sharing method that increases the
student model capacity. PTP is a KD-specialized initialization method, which
can act as a good initial guide for the student. When combined, this method
yields a significant increase in student model's performance. Experiments
conducted on BERT with different datasets and tasks show that the proposed
approach improves the student model's performance by 4.4\% on average in four
GLUE tasks, outperforming existing KD baselines by significant margins.
- Abstract(参考訳): 性能を維持しながらモデルを効率的に圧縮する方法?
知識蒸留(KD)はモデル圧縮の手法として広く知られている。
本質的には、kdは、より大きな教師モデルに基づいて、より小さな生徒モデルを訓練し、教師モデルのパフォーマンスレベルを可能な限り維持しようとする。
しかし、既存のKD法には以下の制限がある。
第一に、学生モデルは絶対サイズが小さいため、本質的にはモデルの能力に欠ける。
第2に,学生モデルの初期指導が欠如しているため,教師モデルを最大限に模倣することは困難である。
従来のKD法はこれらの制限により性能が低い。
本稿では,KD に対する新しいアプローチである Pea-KD (Parameter- efficient and accurate Knowledge Distillation) を提案する。
Pea-KDは、Shuffled Parameter Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要な部分から構成される。
この組み合わせにより、我々はKDの限界を緩和することができる。
SPSは,学生モデルの容量を増大させる新しいパラメータ共有手法である。
PTPはKD特化初期化法であり、学生にとって良い初期ガイドとして機能する。
この手法を組み合わせると、学生モデルの性能が大幅に向上する。
BERTと異なるデータセットとタスクを用いて行った実験により、提案手法は4つのGLUEタスクにおいて、学生モデルの性能を平均4.4 %改善し、既存のKDベースラインをかなりのマージンで上回った。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model [13.367731896112861]
知識蒸留(KD)は、エッジ展開において広く使われている圧縮技術の一つである。
本稿では,特徴分散に基づいてバックドアを緩和しながらモデルを圧縮するロバストKDを提案する。
論文 参考訳(メタデータ) (2024-06-01T11:25:03Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings [36.37939188680754]
ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
論文 参考訳(メタデータ) (2021-12-10T16:11:23Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。