論文の概要: MiniPLM: Knowledge Distillation for Pre-Training Language Models
- arxiv url: http://arxiv.org/abs/2410.17215v3
- Date: Wed, 19 Mar 2025 00:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:20:30.814402
- Title: MiniPLM: Knowledge Distillation for Pre-Training Language Models
- Title(参考訳): MiniPLM:事前学習言語モデルのための知識蒸留
- Authors: Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang,
- Abstract要約: MiniPLM は、大規模な教師 LM を用いて、学生言語モデル (LM) を事前訓練するためのフレームワークである。
効率性のために、MiniPLMはオフラインの教師推論を実行する。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
- 参考スコア(独自算出の注目度): 109.83741809808483
- License:
- Abstract: Knowledge distillation (KD) is widely used to train small, high-performing student language models (LMs) using large teacher LMs. While effective in fine-tuning, KD during pre-training faces efficiency, flexibility, and effectiveness issues. Existing methods either incur high computational costs due to online teacher inference, require tokenization matching between teacher and student LMs, or risk losing the difficulty and diversity of the teacher-generated training data. In this work, we propose MiniPLM, a KD framework for pre-training LMs by refining the training data distribution with the teacher LM's knowledge. For efficiency, MiniPLM performs offline teacher inference, allowing KD for multiple student LMs without adding training costs. For flexibility, MiniPLM operates solely on the training corpus, enabling KD across model families. For effectiveness, MiniPLM leverages the differences between large and small LMs to enhance the training data difficulty and diversity, helping student LMs acquire versatile and sophisticated knowledge. Extensive experiments demonstrate that MiniPLM boosts the student LMs' performance on 9 common downstream tasks, improves language modeling capabilities, and reduces pre-training computation. The benefit of MiniPLM extends to larger training scales, evidenced by the scaling curve extrapolation. Further analysis reveals that MiniPLM supports KD across model families and enhances the pre-training data utilization. Our code, data, and models can be found at https://github.com/thu-coai/MiniPLM.
- Abstract(参考訳): 知識蒸留(KD)は、大きな教師のLMを用いて、小規模で高性能な学生言語モデル(LM)を訓練するために広く用いられている。
微調整には有効だが、事前訓練中のKDは効率性、柔軟性、有効性の問題に直面している。
既存の方法は、オンライン教師推論による高い計算コストを発生させるか、教師と学生のLM間のトークン化マッチングを必要とするか、あるいは教師が作成したトレーニングデータの困難さと多様性を失うリスクを負う。
本研究では,教師の学習データ分布を教師の知識で補足することで,事前学習のためのKDフレームワークであるMiniPLMを提案する。
効率性のために、MiniPLMはオフラインの教師推論を実行する。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
有効性のために、MiniPLMは、大小のLMの違いを活用して、訓練データの難易度と多様性を高め、学生のLMが汎用的で洗練された知識を得るのを助ける。
大規模な実験により、MiniPLMは9つのダウンストリームタスクにおける学生のLMのパフォーマンスを向上し、言語モデリング能力を改善し、事前学習の計算を減らした。
MiniPLMの利点は、スケール曲線の外挿によって証明されたより大きなトレーニングスケールにまで拡張される。
さらなる分析により、MiniPLMはモデルファミリ間のKDをサポートし、事前学習データ利用率を高めることが明らかになった。
私たちのコード、データ、モデルはhttps://github.com/thu-coai/MiniPLM.comで確認できます。
関連論文リスト
- Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs [22.177654792824896]
コスト効率とアクセシビリティのために,小型言語モデル(3Bから7Bパラメータ)に焦点を当てた。
オープンソースで事前トレーニングされた4つのモデルに対して,さまざまなトレーニング構成と戦略について検討する。
i) 学習率の低いバッチサイズと組み合わせることで,MMLUやMTBench,Open LLM Leaderboardといったベンチマーク上でのモデルパフォーマンスが向上します。
論文 参考訳(メタデータ) (2024-12-17T21:16:59Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。