論文の概要: Being Strong Progressively! Enhancing Knowledge Distillation of Large Language Models through a Curriculum Learning Framework
- arxiv url: http://arxiv.org/abs/2506.05695v1
- Date: Fri, 06 Jun 2025 02:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.298301
- Title: Being Strong Progressively! Enhancing Knowledge Distillation of Large Language Models through a Curriculum Learning Framework
- Title(参考訳): 強く進歩する! カリキュラム学習フレームワークによる大規模言語モデルの知識蒸留の促進
- Authors: Lingyuan Liu, Mengxiang Zhang,
- Abstract要約: 知識蒸留(KD)は、教師モデルの能力をより小さな学生モデルに転送することで、大きな言語モデル(LLM)を圧縮する。
LLMの既存のKD法は、訓練中に学生モデルの分布が大きく変化することを防ぐのに失敗することが多い。
我々は,「プログレッシブ・オーバーロード」の強度トレーニング原理に着想を得た,新しいプラグインカリキュラム学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) compresses large language models (LLMs) by transferring the teacher model's capabilities to a smaller student model, reducing inference cost and memory usage while maintaining performance. However, existing KD methods for LLMs often fail to prevent significant shifts in the student model's distribution during training, leading to issues such as catastrophic forgetting, mode collapse, and training-inference mismatch. To address these challenges, we propose a novel, plug-in curriculum learning framework inspired by the strength training principle of "progressive overload" (POCL), which can be seamlessly integrated into existing white-box KD approaches with minimal computational overhead. The framework comprises two core components: (1) a difficulty measurer that ranks and partitions training samples from easy to hard, and (2) a training scheduler that incrementally introduces these subsets into the distillation process at fixed intervals while applying loss functions with progressively rising temperatures. By starting with the easiest samples and progressively increasing the difficulty, the approach enhances both the stability and efficiency of learning. Extensive experiments in instruction-following settings demonstrate that POCL consistently improves the performance of distilled student models across various white-box KD methods and model families. Our findings highlight the effectiveness of sorted training samples in KD for LLMs. More generally, our work demonstrates how to structure training data within the KD process to enhance the stability and performance of distilled LLMs.
- Abstract(参考訳): 知識蒸留(KD)は、教師モデルの能力をより小さな学生モデルに移行し、性能を維持しながら推論コストとメモリ使用量を減らすことで、大きな言語モデル(LLM)を圧縮する。
しかし、LLMの既存のKD法は、訓練中に学生モデルの分布が大きく変化することを防ぐことができず、破滅的な忘れ込み、モード崩壊、トレーニングと推論のミスマッチといった問題を引き起こす。
これらの課題に対処するため、我々は、計算オーバーヘッドを最小限に抑えた既存のWhite-box KDアプローチにシームレスに統合可能な、"progressive Overload"(POCL)の強度トレーニング原則に着想を得た、新しいプラグインカリキュラム学習フレームワークを提案する。
本フレームワークは,(1) トレーニングサンプルのランク付けと分割を容易から困難に行う難易度測定器,(2) 一定間隔でこれらのサブセットを蒸留工程に漸進的に導入する訓練スケジューラと, 温度が徐々に上昇する損失関数を適用しながら構成する。
最も簡単なサンプルから始めて、難易度を徐々に高めることによって、このアプローチは学習の安定性と効率性の両方を高める。
命令追従設定における広範囲な実験により、POCLは様々なホワイトボックスKD法およびモデルファミリーで蒸留された学生モデルの性能を一貫して改善することを示した。
以上の結果から,LLMにおけるKD分類トレーニングの有用性が示唆された。
さらに本研究は, 蒸留LLMの安定性と性能を高めるため, KDプロセス内でのトレーニングデータを構造化する方法を実証する。
関連論文リスト
- Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning [43.12759195699103]
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。
本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。
まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。
第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
論文 参考訳(メタデータ) (2025-06-04T15:31:46Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - A Psychology-based Unified Dynamic Framework for Curriculum Learning [5.410910735259908]
本稿では、心理学に基づくカリキュラム学習のための統一動的フレームワーク(PUDF)を提案する。
我々は、人工集団(AC)からの応答にIRT(Item Response Theory)を適用して、データトレーニングの難しさを定量化する。
本稿では,モデル学習中に適切なデータ量をスケジュールするDDS-MAE戦略を提案する。
論文 参考訳(メタデータ) (2024-08-09T20:30:37Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning [47.64252639582435]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。