論文の概要: MiniPLM: Knowledge Distillation for Pre-Training Language Models
- arxiv url: http://arxiv.org/abs/2410.17215v1
- Date: Tue, 22 Oct 2024 17:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:37.902537
- Title: MiniPLM: Knowledge Distillation for Pre-Training Language Models
- Title(参考訳): MiniPLM:事前学習言語モデルのための知識蒸留
- Authors: Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang,
- Abstract要約: MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。
効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
- 参考スコア(独自算出の注目度): 109.83741809808483
- License:
- Abstract: Knowledge distillation (KD) is widely used to train small, high-performing student language models (LMs) using large teacher LMs. While effective in fine-tuning, KD during pre-training faces challenges in efficiency, flexibility, and effectiveness. Existing methods either incur high computational costs due to online teacher inference, require tokenization matching between teacher and student LMs, or risk losing the difficulty and diversity of the teacher-generated training data. To address these issues, we propose MiniPLM, a KD framework for pre-training LMs by refining the training data distribution with the teacher's knowledge. For efficiency, MiniPLM performs offline teacher LM inference, allowing KD for multiple student LMs without adding training-time costs. For flexibility, MiniPLM operates solely on the training corpus, enabling KD across model families. For effectiveness, MiniPLM leverages the differences between large and small LMs to enhance the difficulty and diversity of the training data, helping student LMs acquire versatile and sophisticated knowledge. Extensive experiments demonstrate that MiniPLM boosts the student LMs' performance on 9 widely used downstream tasks, improves the language modeling capabilities, and reduces pre-training computation. The benefit of MiniPLM extends to large pre-training scales, evidenced by the extrapolation of the scaling curves. Further analysis reveals that MiniPLM supports KD across model families and enhances the utilization of pre-training data. Our model, code, and data are available at https://github.com/thu-coai/MiniPLM.
- Abstract(参考訳): 知識蒸留(KD)は、大きな教師のLMを用いて、小規模で高性能な学生言語モデル(LM)を訓練するために広く用いられている。
微調整には有効だが、事前訓練中のKDは効率、柔軟性、有効性の課題に直面している。
既存の方法は、オンライン教師推論による高い計算コストを発生させるか、教師と学生のLM間のトークン化マッチングを必要とするか、あるいは教師が作成したトレーニングデータの困難さと多様性を失うリスクを負う。
これらの課題に対処するために,教師の知識でトレーニングデータ分布を洗練することにより,LMを事前学習するためのKDフレームワークであるMiniPLMを提案する。
効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LM向けにKDをトレーニング時間コストを加算することなく実行できる。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
有効性のために、MiniPLMは、大小のLMの違いを活用して、トレーニングデータの難易度と多様性を高め、学生のLMが汎用的で洗練された知識を得るのを助ける。
大規模な実験により、MiniPLMは、下流で広く使われている9つのタスクにおいて、学生のLMのパフォーマンスを向上し、言語モデリング能力を改善し、事前学習の計算を減らした。
MiniPLMの利点は、スケーリング曲線の外挿によって証明された大きな事前学習スケールにまで拡張される。
さらに分析した結果,MiniPLMはモデルファミリ間のKDをサポートし,事前学習データの利用を促進できることがわかった。
私たちのモデル、コード、データはhttps://github.com/thu-coai/MiniPLM.comで公開されています。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - CELLM: An Efficient Communication in Large Language Models Training for Federated Learning [0.0]
本論文は,フェデレートラーニング(FL)における大規模言語モデル(LLM)の効率的な学習手法の開発を目的とする。
まず,ローランク適応(LoRA)を用いて局所モデルトレーニングの計算負荷を削減する。
第2に、コミュニケーションコストを大幅に削減するために、トレーニング全体を通してスパース更新を通信します。
論文 参考訳(メタデータ) (2024-07-30T05:24:08Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Knowledge Inheritance for Pre-trained Language Models [57.51305807391381]
我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
論文 参考訳(メタデータ) (2021-05-28T14:43:26Z) - Modality-specific Distillation [30.190082262375395]
マルチモーダルデータセット上の教師から知識を効果的に伝達するモダリティ特異的蒸留(MSD)を提案する。
私たちのアイデアは、各モダリティの補助損失項を導入して、教師のモダリティ特異的予測を模倣することを目指しています。
各モダリティは予測に異なる重要性を持つため、補助的損失に対する重み付けアプローチも提案する。
論文 参考訳(メタデータ) (2021-01-06T05:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。