論文の概要: The Strongest Teacher Is Not Always the Best Teacher: Student-Centric Answer Selection
- arxiv url: http://arxiv.org/abs/2605.26872v1
- Date: Tue, 26 May 2026 11:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.975328
- Title: The Strongest Teacher Is Not Always the Best Teacher: Student-Centric Answer Selection
- Title(参考訳): 最も強い教師は、常に最高の教師ではない:学生中心の回答選択
- Authors: Zhengyu Hu, Zheyuan Xiao, Linxin Song, Fengqing Jiang, Yutai Li, Zhengyu Chen, Zhihan Xiong, Yue Liu, Junhao Lin, Yao Su, Lijie Hu, Kaize Ding, Xiao Teng, Radha Poovendran,
- Abstract要約: SCAS(Student-Centric Answer Sampling)は、学生中心の学習コストの推定に基づいて、教師が作成した回答から選択するフレームワークである。
30の教師モデル、6人の生徒ベースモデル、8つのタスクにわたる実験は、SCASが生徒のパフォーマンスを継続的に改善していることを示している。
- 参考スコア(独自算出の注目度): 46.38575272632866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM training increasingly relies on teacher-generated supervision, from synthetic responses to reasoning traces and tool-use demonstrations. Current practice often chooses the highest-performing teacher to generate student training data, implicitly treating teacher test performance as a proxy for teaching quality. We show that this assumption can fail: even when multiple teachers provide correct answers to the same question, the answer from the strongest teacher is not necessarily the best supervision for a given student. To address this gap, we propose Student-Centric Answer Sampling (SCAS), a framework that selects from verified teacher-generated answers according to their estimated student-centric learning cost. Motivated by a token-wise gradient decomposition, we derive an efficient forward-only proxy for this cost and use it to guide answer selection during training. Experiments across 30 teacher models, 6 student base models, and 8 tasks show that SCAS consistently improves student performance, suggesting that effective distillation should prioritize supervision matched to the current student rather than teacher strength alone.
- Abstract(参考訳): LLMトレーニングは、合成反応から推論トレース、ツール使用デモまで、教師が生み出す監督にますます依存している。
現在の実践では、生徒のトレーニングデータを生成する上で、最高の成績の教師を選ぶことが多く、教師のテストパフォーマンスを質の代用として暗黙的に扱います。
複数の教師が同じ質問に対して正しい回答を下しても、最強の教師の回答は必ずしも学生にとって最高の監督であるとは限らない。
このギャップに対処するために,学生中心学習コストの推定に基づいて,教師が作成した回答から選択するフレームワークであるSCAS(Science-Centric Answer Sampling)を提案する。
トークン単位の勾配分解によって動機付けられたこのコストに対して、効率的なフォワードのみのプロキシを導出し、トレーニング中の回答の選択をガイドするために使用する。
30の教師モデル、6つの生徒ベースモデル、8つのタスクにわたる実験は、SCASが生徒のパフォーマンスを継続的に改善していることを示し、効果的な蒸留は教師の力だけではなく、現在の学生に合った監督を優先すべきであることを示唆している。
関連論文リスト
- On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Masking Teacher and Reinforcing Student for Distilling Vision-Language Models [50.619420197124356]
大規模視覚言語モデル(VLM)は近年,目覚ましいマルチモーダル理解を実現している。
これにより、強力な大規模教師から効率的に学習できるコンパクトで有能なVLMの必要性が高まる。
マスク・プログレッシブ・強化学習の枠組みであるマスターズ(マスク教師と強化学生)を提案する。
論文 参考訳(メタデータ) (2025-12-23T14:40:38Z) - Distilling Reasoning into Student LLMs: Local Naturalness for Selecting Teacher Data [18.97748910748554]
そこで本研究では,局所自然度(Local Naturalness)について紹介する。
多くの教師の回答を混ぜ合わせると、Local Naturalnessは32Bの学生の数学のベンチマークの精度を、グローバルセレクションよりも9.4pp向上させる。
これらの結果は, ローカライズされたデータ品質評価とデータ混合により, より効果的に蒸留できることを示すものである。
論文 参考訳(メタデータ) (2025-10-05T01:15:32Z) - Merge-of-Thought Distillation [23.53356244978525]
マージ・オブ・ソート蒸留(Merge-of-Thought Distillation、MoT)は、教師固有の教師付き微調整ブランチと、結果として生じる生徒の変種をマージする重み空間を代替する軽量フレームワークである。
競合数学のベンチマークでは、Qwen3-14Bの学生にMoTを適用すると、Deepseek-R1、Qwen3-32B、OpenAI-O1といった強力なモデルを超える。
MoTは、最高の単教師蒸留よりも優れており、数学以外の一般的な推論を改善し、分散シフトとピアレベルの教師に対して堅牢性を示している。
論文 参考訳(メタデータ) (2025-09-10T17:46:57Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。