論文の概要: In Good GRACEs: Principled Teacher Selection for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2511.02833v1
- Date: Tue, 04 Nov 2025 18:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.164127
- Title: In Good GRACEs: Principled Teacher Selection for Knowledge Distillation
- Title(参考訳): 良質なGRACEs:知識蒸留のための原則的教師選択
- Authors: Abhishek Panigrahi, Bingbin Liu, Sadhika Malladi, Sham Kakade, Surbhi Goel,
- Abstract要約: 本研究では,教師が学生モデルのポストトレーニングにどの程度効果的であるかを定量化するために,GRACEと呼ばれる軽量スコアを提案する。
GRACEは、検証者、教師のログ、教師の内部、テストデータにアクセスすることなく、生徒の勾配の分布特性を測定する。
- 参考スコア(独自算出の注目度): 32.00881805808886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is an efficient strategy to use data generated by large "teacher" language models to train smaller capable "student" models, but selecting the optimal teacher for a specific student-task combination requires expensive trial-and-error. We propose a lightweight score called GRACE to quantify how effective a teacher will be for post-training a student model. GRACE measures distributional properties of the student's gradients without access to a verifier, teacher logits, teacher internals, or test data. From an information-theoretic perspective, GRACE connects to leave-one-out stability of gradient-based algorithms, which controls the generalization performance of the distilled students. On GSM8K and MATH, GRACE correlates strongly (up to 86% Spearman correlation) with the performance of the distilled LLaMA and OLMo students. In particular, training a student using the GRACE-selected teacher can improve the performance by up to 7.4% over naively using the best-performing teacher. Further, GRACE can provide guidance on crucial design choices in distillation, including (1) the best temperature to use when generating from the teacher, (2) the best teacher to use given a size constraint, and (3) the best teacher to use within a specific model family. Altogether, our findings demonstrate that GRACE can efficiently and effectively identify a strongly compatible teacher for a given student and provide fine-grained guidance on how to perform distillation.
- Abstract(参考訳): 知識蒸留は、大きな「教師」言語モデルによって生成されたデータを使用して、より小さな能力を持つ「学生」モデルを訓練する効率的な戦略であるが、特定の学生とタスクの組み合わせに最適な教師を選ぶには、高価な試行錯誤が必要である。
本研究では,教師が学生モデルのポストトレーニングにどの程度効果的であるかを定量化するために,GRACEと呼ばれる軽量スコアを提案する。
GRACEは、検証者、教師のログ、教師の内部、テストデータにアクセスすることなく、生徒の勾配の分布特性を測定する。
情報理論の観点からは、GRACEは、蒸留した学生の一般化性能を制御する勾配に基づくアルゴリズムの残余安定性に接続する。
GSM8K と MATH では,GRACE は LLaMA と OLMo の蒸留性能と強く相関する(最大 86% のスピアマン相関)。
特に、GRACE選択の教師を用いて生徒を訓練することで、最高の成績の教師を指導するよりも、パフォーマンスを最大7.4%向上させることができる。
さらに、GRACEは、(1)教師から生成する際に使用する最適な温度、(2)サイズ制約を与えられた最高の教師、(3)特定のモデルファミリー内で使用する最高の教師など、蒸留における重要な設計選択に関するガイダンスを提供することができる。
以上の結果から,GRACEは学生に対して,強い適合性を持つ教師を効果的かつ効果的に識別し,蒸留の実施方法に関する詳細なガイダンスを提供することが可能であることが示唆された。
関連論文リスト
- Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。