論文の概要: MiniLLM: Knowledge Distillation of Large Language Models
- arxiv url: http://arxiv.org/abs/2306.08543v4
- Date: Wed, 10 Apr 2024 02:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 19:45:16.798593
- Title: MiniLLM: Knowledge Distillation of Large Language Models
- Title(参考訳): MiniLLM: 大規模言語モデルの知識蒸留
- Authors: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang,
- Abstract要約: 知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
- 参考スコア(独自算出の注目度): 112.93051247165089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a promising technique for reducing the high computational demand of large language models (LLMs). However, previous KD methods are primarily applied to white-box classification models or training small models to imitate black-box model APIs like ChatGPT. How to effectively distill the knowledge of white-box LLMs into small models is still under-explored, which becomes more important with the prosperity of open-source LLMs. In this work, we propose a KD approach that distills LLMs into smaller language models. We first replace the forward Kullback-Leibler divergence (KLD) objective in the standard KD approaches with reverse KLD, which is more suitable for KD on generative language models, to prevent the student model from overestimating the low-probability regions of the teacher distribution. Then, we derive an effective optimization approach to learn this objective. The student models are named MiniLLM. Extensive experiments in the instruction-following setting show that MiniLLM generates more precise responses with higher overall quality, lower exposure bias, better calibration, and higher long-text generation performance than the baselines. Our method is scalable for different model families with 120M to 13B parameters. Our code, data, and model checkpoints can be found in https://github.com/microsoft/LMOps/tree/main/minillm.
- Abstract(参考訳): 知識蒸留 (KD) は, 大規模言語モデル (LLM) の計算負荷を低減させる, 有望な手法である。
しかしながら、従来のKDメソッドは、主にホワイトボックス分類モデルや、ChatGPTのようなブラックボックスモデルAPIを模倣する小さなモデルの訓練に適用される。
ホワイトボックスLSMの知識を小さなモデルに効果的に蒸留する方法はまだ未発見であり、オープンソースLSMの繁栄によりより重要になる。
本研究では,LLMをより小さな言語モデルに蒸留するKD手法を提案する。
我々はまず,教師分布の低確率領域を過大評価しないように,生成言語モデル上でKDに適した逆KLDを用いて,標準KDアプローチにおけるKLL(Kulback-Leibler divergence)目標のフォワードを置き換える。
そして、この目的を学習するための効果的な最適化手法を導出する。
学生モデルはMiniLLMと名付けられている。
命令追従設定における広範囲な実験により、MiniLLMはベースラインよりも高い全体的な品質、低い露出バイアス、キャリブレーション、高い長文生成性能でより正確な応答を生成することが示された。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
私たちのコード、データ、モデルチェックポイントはhttps://github.com/microsoft/LMOps/tree/main/minillm.comで確認できます。
関連論文リスト
- Dynamic Self-Distillation via Previous Mini-batches for Fine-tuning Small Language Models [26.52225051132963]
自己蒸留(SelfD)は、教師の指導なしに生徒モデルが学習できるように、推奨可能な代替手段として現れる。
我々は、前回のミニバッチ(DynSDPB)からDynamic SelfDというモデル非依存およびタスク非依存の手法を導入する。
エンコーダのみのLMとデコーダのみのLMにおいてDynSDPBの優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-25T23:37:48Z) - Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。
効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文 参考訳(メタデータ) (2024-10-22T17:40:32Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。