論文の概要: Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2602.12172v1
- Date: Thu, 12 Feb 2026 17:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.948275
- Title: Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation
- Title(参考訳): 言語モデル知識蒸留のための教育学的に着想を得たデータ合成
- Authors: Bowei He, Yankai Chen, Xiaokun Zhang, Linghe Kong, Philip S. Yu, Xue Liu, Chen Ma,
- Abstract要約: 本稿では,知識蒸留のための教育的な枠組みを提案する。
提案手法は,学生モデルにおける知識不足を識別し,進歩的カリキュラムを通して知識提供を組織化し,学生モデルの認知能力に合わせた表現を適応させる。
我々のフレームワークは特に複雑な推論タスクに優れており、最先端のベースラインと比較してMATHが19.2%、HumanEvalが22.3%改善している。
- 参考スコア(独自算出の注目度): 63.302074484672424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation from Large Language Models (LLMs) to smaller models has emerged as a critical technique for deploying efficient AI systems. However, current methods for distillation via synthetic data lack pedagogical awareness, treating knowledge transfer as a one-off data synthesis and training task rather than a systematic learning process. In this paper, we propose a novel pedagogically-inspired framework for LLM knowledge distillation that draws from fundamental educational principles. Our approach introduces a three-stage pipeline -- Knowledge Identifier, Organizer, and Adapter (IOA) -- that systematically identifies knowledge deficiencies in student models, organizes knowledge delivery through progressive curricula, and adapts representations to match the cognitive capacity of student models. We integrate Bloom's Mastery Learning Principles and Vygotsky's Zone of Proximal Development to create a dynamic distillation process where student models approach teacher model's performance on prerequisite knowledge before advancing, and new knowledge is introduced with controlled, gradual difficulty increments. Extensive experiments using LLaMA-3.1/3.2 and Qwen2.5 as student models demonstrate that IOA achieves significant improvements over baseline distillation methods, with student models retaining 94.7% of teacher performance on DollyEval while using less than 1/10th of the parameters. Our framework particularly excels in complex reasoning tasks, showing 19.2% improvement on MATH and 22.3% on HumanEval compared with state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)からより小さなモデルへの知識蒸留は、効率的なAIシステムをデプロイするための重要な技術として登場した。
しかし、現在の合成データによる蒸留法では、体系的な学習プロセスではなく、ワンオフデータ合成およびトレーニングタスクとして知識伝達を扱い、教育的な認識が欠如している。
本稿では, LLM の知識蒸留を基礎的な教育原理から導き出すための, 教育学的に着想を得た新しい枠組みを提案する。
このパイプラインは、学生モデルの知識不足を体系的に識別し、プログレッシブカリキュラムを通じて知識提供を組織し、生徒モデルの認知能力に合うように表現を適用する。
我々はブルームの習得原理とヴィゴツキーの近開発ゾーンを統合して、学生モデルが教師モデルのパフォーマンスに前進する前に必要な知識でアプローチする動的な蒸留プロセスを作成し、制御された漸進的な困難を増すことによって新しい知識を導入する。
LLaMA-3.1/3.2 と Qwen2.5 を学生モデルとして広範囲に実験したところ、IOA は DollyEval 上での教師のパフォーマンスの94.7% を維持しながら、1/10 分の1 未満のパラメータを使用しながら、ベースライン蒸留法よりも大幅に改善されていることが示されている。
我々のフレームワークは特に複雑な推論タスクに優れており、最先端のベースラインと比較してMATHが19.2%、HumanEvalが22.3%改善している。
関連論文リスト
- Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。
これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。
その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文 参考訳(メタデータ) (2025-04-22T17:32:48Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。