論文の概要: Curriculum Learning-Guided Progressive Distillation in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.11260v1
- Date: Mon, 11 May 2026 21:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.441172
- Title: Curriculum Learning-Guided Progressive Distillation in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるカリキュラム学習による進行的蒸留
- Authors: Jincheng Cao, Fanzhi Zeng, Leqi Liu, Aryan Mokhtari,
- Abstract要約: 既存の蒸留アプローチでは、トレーニングデータの学習順序と、教師と学生のモデル間の容量ミスマッチという、2つの重要な要因を見落としていることが多い。
本稿では,教師の強度とデータ難易度を一致させることにより,両要因を統一したフレームワークであるCLPD(Curriculum Learning-Guided Progressive Distillation)を提案する。
私たちのフレームワークはモジュール化されており、最小限のオーバーヘッドで標準的な蒸留アルゴリズムに統合することができます。
- 参考スコア(独自算出の注目度): 18.961191510804134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a key technique for transferring the capabilities of large language models (LLMs) into smaller, more efficient student models. Existing distillation approaches often overlook two critical factors: the learning order of training data and the capacity mismatch between teacher and student models. This oversight limits distillation performance, as manifested by the counter-intuitive phenomenon where stronger teachers fail to produce better students. In this work, we propose Curriculum Learning-Guided Progressive Distillation (CLPD), a unified framework that explicitly accounts for both factors by aligning data difficulty with teacher strength. CLPD constructs an explicit curriculum by organizing training examples from easy to hard, while simultaneously applying an implicit curriculum over supervision signals by progressively scheduling teachers of increasing capacity. Our framework is modular and can be integrated into standard distillation algorithms with minimal overhead. Empirical results on the reasoning benchmarks demonstrate that CLPD consistently outperforms standard distillation, data ordering alone, and teacher scheduling alone across multiple settings. These findings highlight the importance of jointly considering data ordering and teacher capacity when distilling reasoning abilities into small language models.
- Abstract(参考訳): 知識蒸留は、大きな言語モデル(LLM)の能力をより小さく、より効率的な学生モデルに伝達する鍵となる技術である。
既存の蒸留アプローチでは、トレーニングデータの学習順序と、教師と学生のモデル間の容量ミスマッチという、2つの重要な要因を見落としていることが多い。
この監視は、より強い教師がより良い学生を生み出すのに失敗した反直感的な現象によって示されるように、蒸留性能を制限している。
本研究では,教師の強みとデータ難易度を整合させることにより,両要因を明確に説明できる統一的なフレームワークであるCLPD(Curriculum Learning-Guided Progressive Distillation)を提案する。
CLPDは、訓練例を簡単なものから難しいものへと整理し、同時に教師の能力向上を段階的にスケジューリングすることで、監督信号に暗黙のカリキュラムを適用することで、明示的なカリキュラムを構築する。
私たちのフレームワークはモジュール化されており、最小限のオーバーヘッドで標準的な蒸留アルゴリズムに統合することができます。
推論ベンチマークによる実証的な結果は、CLPDが標準蒸留、データ順序付け、教師のスケジューリングを複数の設定で一貫して上回っていることを示している。
これらの知見は,小規模言語モデルへの推論能力の蒸留において,データの順序付けと教師の能力について共同で検討することの重要性を浮き彫りにした。
関連論文リスト
- On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。
実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-12T18:58:28Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Being Strong Progressively! Enhancing Knowledge Distillation of Large Language Models through a Curriculum Learning Framework [0.0]
知識蒸留(KD)は、教師モデルの能力をより小さな学生モデルに転送することで、大きな言語モデル(LLM)を圧縮する。
LLMの既存のKD法は、訓練中に学生モデルの分布が大きく変化することを防ぐのに失敗することが多い。
我々は,「プログレッシブ・オーバーロード」の強度トレーニング原理に着想を得た,新しいプラグインカリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T02:48:38Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Efficient Verified Machine Unlearning For Distillation [7.269476063438961]
PURGE(Partitioned Unlearning with Retraining Guarantee for Ensembles)は、未学習と蒸留を統合した新しいフレームワークである。
理論的解析,未学習プロセスにおける重要なスピードアップの定量化,および複数のデータセットに対する実証的検証を行う。
論文 参考訳(メタデータ) (2025-03-28T15:38:07Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。