論文の概要: Knowledge Distillation of Large Language Models
- arxiv url: http://arxiv.org/abs/2306.08543v1
- Date: Wed, 14 Jun 2023 14:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:37:17.751920
- Title: Knowledge Distillation of Large Language Models
- Title(参考訳): 大規模言語モデルの知識蒸留
- Authors: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
- Abstract要約: 知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
生成するより大きな言語モデルからより小さな言語モデルを抽出するMiniLLMを提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してもスケーラブルである。
- 参考スコア(独自算出の注目度): 138.0745138788142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) is a promising technique for reducing the high
computational demand of large language models (LLMs). However, previous KD
methods are primarily applied to white-box classification models or training
small models to imitate black-box model APIs like ChatGPT. How to effectively
distill the knowledge from white-box generative LLMs is still under-explored,
which becomes more and more important with the prosperity of LLMs. In this
work, we propose MiniLLM that distills smaller language models from generative
larger language models. We first replace the forward Kullback-Leibler
divergence (KLD) objective in the standard KD approaches with reverse KLD,
which is more suitable for KD on generative language models, to prevent the
student model from overestimating the low-probability regions of the teacher
distribution. Then, we derive an effective optimization approach to learn this
objective. Extensive experiments in the instruction-following setting show that
the MiniLLM models generate more precise responses with the higher overall
quality, lower exposure bias, better calibration, and higher long-text
generation performance. Our method is also scalable for different model
families with 120M to 13B parameters. We will release our code and model
checkpoints at https://aka.ms/MiniLLM.
- Abstract(参考訳): 知識蒸留 (KD) は, 大規模言語モデル (LLM) の高い計算需要を減らすための有望な手法である。
しかしながら、従来のKDメソッドは、主にホワイトボックス分類モデルや、ChatGPTのようなブラックボックスモデルAPIを模倣する小さなモデルの訓練に適用される。
ホワイトボックス生成LDMから効果的に知識を抽出する方法はまだ未熟であり、LSMの繁栄とともにますます重要になっている。
本研究では,生成型言語モデルからより小さな言語モデルを抽出するminillmを提案する。
我々はまず,教師分布の低確率領域を過大評価しないように,生成言語モデル上でKDに適した逆KLDを用いて,標準KDアプローチにおけるKLL(Kulback-Leibler divergence)目標のフォワードを置き換える。
そして、この目的を学習するための効果的な最適化アプローチを導出する。
命令追従設定における広範囲な実験により、MiniLLMモデルは、より高い全体的な品質、低い露光バイアス、より良い校正、より高い長文生成性能でより正確な応答を生成することが示された。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してもスケーラブルである。
コードとモデルチェックポイントはhttps://aka.ms/MiniLLM.com/でリリースします。
関連論文リスト
- Knowledge Distillation of LLM for Automatic Scoring of Science Education
Assessments [4.541309099803903]
本研究では, より小さく, より効率的かつ正確なニューラルネットワークへの微調整型大言語モデル(LLM)の知識蒸留(KD)手法を提案する。
リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文 参考訳(メタデータ) (2023-12-26T01:24:25Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Localization Distillation for Object Detection [79.78619050578997]
物体検出のためのローカライズ蒸留(LD)を提案する。
我々のldは、バウンディングボックスの一般局在表現を採用することで標準kdとして定式化することができる。
教師モデルと学生モデルとのギャップを埋めるための教師アシスタント(TA)戦略を提案します。
論文 参考訳(メタデータ) (2021-02-24T12:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。