論文の概要: MixKD: Towards Efficient Distillation of Large-scale Language Models
- arxiv url: http://arxiv.org/abs/2011.00593v2
- Date: Wed, 17 Mar 2021 06:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 22:54:19.910377
- Title: MixKD: Towards Efficient Distillation of Large-scale Language Models
- Title(参考訳): MixKD:大規模言語モデルの効率的な蒸留を目指して
- Authors: Kevin J Liang, Weituo Hao, Dinghan Shen, Yufan Zhou, Weizhu Chen,
Changyou Chen, Lawrence Carin
- Abstract要約: データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
- 参考スコア(独自算出の注目度): 129.73786264834894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language models have recently demonstrated impressive empirical
performance. Nevertheless, the improved results are attained at the price of
bigger models, more power consumption, and slower inference, which hinder their
applicability to low-resource (both memory and computation) platforms.
Knowledge distillation (KD) has been demonstrated as an effective framework for
compressing such big models. However, large-scale neural network systems are
prone to memorize training instances, and thus tend to make inconsistent
predictions when the data distribution is altered slightly. Moreover, the
student model has few opportunities to request useful information from the
teacher model when there is limited task-specific data available. To address
these issues, we propose MixKD, a data-agnostic distillation framework that
leverages mixup, a simple yet efficient data augmentation approach, to endow
the resulting model with stronger generalization ability. Concretely, in
addition to the original training examples, the student model is encouraged to
mimic the teacher's behavior on the linear interpolation of example pairs as
well. We prove from a theoretical perspective that under reasonable conditions
MixKD gives rise to a smaller gap between the generalization error and the
empirical error. To verify its effectiveness, we conduct experiments on the
GLUE benchmark, where MixKD consistently leads to significant gains over the
standard KD training, and outperforms several competitive baselines.
Experiments under a limited-data setting and ablation studies further
demonstrate the advantages of the proposed approach.
- Abstract(参考訳): 大規模な言語モデルは最近、印象的なパフォーマンスを示している。
それでも、改善された結果は、より大きなモデル、より電力消費、より遅い推論の価格で達成されており、低リソース(メモリと計算の両方)プラットフォームへの適用を妨げている。
知識蒸留(KD)は、そのような大きなモデルを圧縮するための効果的な枠組みとして実証されている。
しかしながら、大規模ニューラルネットワークシステムは、トレーニングインスタンスを記憶する傾向があり、データ分布がわずかに変化すると一貫性のない予測を行う傾向がある。
さらに,学生モデルは,限られたタスク固有データが存在する場合に,教師モデルから有用な情報を要求する機会がほとんどない。
これらの問題に対処するために、より強力な一般化能力を持つモデルを実現するために、単純で効率的なデータ拡張アプローチであるmixupを利用するデータ非依存蒸留フレームワークMixKDを提案する。
具体的には、本来の訓練例に加えて、模擬ペアの線形補間における教師の振る舞いを模倣する学生モデルも奨励されている。
理論的な観点からは、合理的な条件下でmixkdは一般化誤差と経験的誤差との差が小さいことを証明している。
その効果を検証するために,mixkd は標準 kd トレーニングよりも大幅に向上し,いくつかの競合ベースラインを上回っている。
限られたデータ設定とアブレーションによる実験は、提案手法の利点をさらに示している。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Reducing Capacity Gap in Knowledge Distillation with Review Mechanism
for Crowd Counting [16.65360204274379]
本稿では,KDモデルに基づく新たなレビュー機構について紹介する。
ReviewKDの有効性は、6つのベンチマークデータセットに対する一連の実験によって実証されている。
また,提案したレビュー機構をプラグイン・アンド・プレイモジュールとして使用することにより,ある種の大群カウントモデルの性能をさらに向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-11T09:11:42Z) - DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings [36.37939188680754]
ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
論文 参考訳(メタデータ) (2021-12-10T16:11:23Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。