論文の概要: GKD: Generalized Knowledge Distillation for Auto-regressive Sequence
Models
- arxiv url: http://arxiv.org/abs/2306.13649v1
- Date: Fri, 23 Jun 2023 17:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 11:59:49.237163
- Title: GKD: Generalized Knowledge Distillation for Auto-regressive Sequence
Models
- Title(参考訳): GKD:自己回帰シーケンスモデルのための一般化知識蒸留
- Authors: Rishabh Agarwal, Nino Vieillard, Piotr Stanczyk, Sabela Ramos,
Matthieu Geist, Olivier Bachem
- Abstract要約: 生成言語モデル(LM)の圧縮のための一般化知識蒸留(GKD)を提案する。
GKDは、学生のトレーニング中に出力シーケンスをサンプリングすることで、分布ミスマッチを緩和する。
GKDは, 要約, 機械翻訳, 算術的推論タスクにおいて, LLMを蒸留するための一般的な手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 35.55576638988785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is commonly used for compressing neural networks to
reduce their inference cost and memory footprint. However, current distillation
methods for auto-regressive models, such as generative language models (LMs),
suffer from two key issues: (1) distribution mismatch between output sequences
during training and the sequences generated by the student during its
deployment, and (2) model under-specification, where the student model may not
be expressive enough to fit the teacher's distribution. To address these
issues, we propose Generalized Knowledge Distillation (GKD). GKD mitigates
distribution mismatch by sampling output sequences from the student during
training. Furthermore, GKD handles model under-specification by optimizing
alternative divergences, such as reverse KL, that focus on generating samples
from the student that are likely under the teacher's distribution. We
demonstrate that GKD outperforms commonly-used approaches for distilling LLMs
on summarization, machine translation, and arithmetic reasoning tasks.
- Abstract(参考訳): 知識蒸留は、ニューラルネットワークの推論コストとメモリフットプリントを削減するために一般的に使用される。
しかし, 生成言語モデル (lms) のような自己回帰モデルに対する現在の蒸留法では, (1) 訓練中の出力シーケンスと展開中の生徒が生成するシーケンスとの分布ミスマッチ, (2) 生徒モデルが教師の分布に適合するほど表現力に乏しいモデル未特定化, という2つの問題に苦しめられている。
これらの課題に対処するため,一般知識蒸留(GKD)を提案する。
GKDは、学生のトレーニング中に出力シーケンスをサンプリングすることで、分布ミスマッチを緩和する。
さらに、GKDは、教師の分布下にある可能性のある学生からサンプルを生成することに焦点を当てた、逆KLのような代替分岐を最適化することで、モデル過小評価を扱う。
GKDは, 要約, 機械翻訳, 算術的推論タスクにおいて, LLMを蒸留するための一般的な手法よりも優れていることを示す。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free
Continual Learning [14.379472108242235]
正規化戦略として知識蒸留(KD)を併用した模範自由クラスインクリメンタルラーニング(CIL)について検討した。
KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。
近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。
論文 参考訳(メタデータ) (2023-08-18T13:22:59Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。