論文の概要: Distilling Reasoning into Student LLMs: Local Naturalness for Selecting Teacher Data
- arxiv url: http://arxiv.org/abs/2510.03988v1
- Date: Sun, 05 Oct 2025 01:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.374215
- Title: Distilling Reasoning into Student LLMs: Local Naturalness for Selecting Teacher Data
- Title(参考訳): 学生LLMへの蒸留推論:教師データ選択のための局所自然性
- Authors: Hoang Anh Just, Myeongseob Ko, Ruoxi Jia,
- Abstract要約: そこで本研究では,局所自然度(Local Naturalness)について紹介する。
多くの教師の回答を混ぜ合わせると、Local Naturalnessは32Bの学生の数学のベンチマークの精度を、グローバルセレクションよりも9.4pp向上させる。
これらの結果は, ローカライズされたデータ品質評価とデータ混合により, より効果的に蒸留できることを示すものである。
- 参考スコア(独自算出の注目度): 18.97748910748554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling long reasoning traces (10K+ tokens) from stronger teacher models into smaller student LLMs via SFT has emerged as a standard paradigm. This approach is practical and efficient: it leverages the ease of generating abundant reasoning data from stronger models and provides a direct, data-driven way to teach less capable models better reasoning. While previous work has largely focused on prompt selection with responses from a single teacher, the equally important problem of choosing the best response when multiple teacher outputs are available for a single prompt remains underexplored. This challenge becomes important in a multi-teacher setting, where different students may benefit from the outputs of different teachers. This paper fills that gap with a systematic study of response selection for reasoning distillation. We first show that the current method, which picks responses the student assigns the highest global log-probability (global naturalness), fails when responses come from multiple teachers, i.e., global naturalness no longer correlates with downstream performance, especially as the reasoning traces from strong teachers become longer. To overcome this problem, we introduce Local Naturalness, which measures the student's log-probabilities over short, sequential reasoning steps conditioned only on a small local window. Local Naturalness enables two applications: 1) Teacher Selection: Aggregating local scores across prompts reliably identifies the most helpful teacher. 2) Response Selection from a Multiple Teachers: When mixing answers from many teachers, Local Naturalness boosts a 32B student's accuracy on math benchmarks by 9.4pp over global selection, also surpassing the performance achieved by training on data from the single best teacher. These results highlight the power of localized data quality evaluation and data mixing for more effective reasoning distillation.
- Abstract(参考訳): より強力な教師モデルから SFT を通じて小さな学生 LLM への長い推論トレース (10K+トークン) の蒸留が標準パラダイムとして登場した。
より強力なモデルから豊富な推論データを生成することの容易さを活用し、より能力の低いモデルにより良い推論を教える直接的なデータ駆動の方法を提供する。
これまでの研究は、一人の教師からの応答による迅速な選択に主に焦点を当ててきたが、複数の教師のアウトプットが1つのプロンプトで利用可能になったときの最良の応答を選択するという、同じくらい重要な問題は、まだ未解決のままである。
この課題は、異なる生徒が異なる教師のアウトプットから恩恵を受けることができるマルチ教師の設定において重要である。
本稿では, 蒸留における反応選択の系統的研究により, そのギャップを埋める。
まず、学生が最もグローバルな対数確率(グローバルな自然性)を割り当てる応答を選択する現在の方法が、複数の教師からの応答が得られなかった場合、すなわち、グローバルな自然性は下流のパフォーマンスと相関しなくなり、特に強い教師からの推論が長くなるにつれて失敗することを示す。
そこで本研究では,局所自然性(Local Naturalness)について紹介する。これは,小さなローカルウィンドウにのみコンディションされた短いシーケンシャルな推論ステップよりも,学生のログ確率を計測するものだ。
局所自然性は2つの応用を可能にする。
1)教師選択:プロンプト間の局所的なスコアの集約は,最も有用な教師を確実に特定する。
2) 複数教師からの回答選択: 多くの教師の回答を混ぜ合わせると, 局所自然度は, 算数ベンチマークにおける32Bの学生の精度を, グローバルセレクションよりも9.4pp向上させる。
これらの結果は, ローカライズされたデータ品質評価とデータ混合により, より効果的に蒸留できることを示すものである。
関連論文リスト
- More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。
より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文 参考訳(メタデータ) (2025-07-02T17:30:24Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
本手法は,教師が正しい推理を行う確率を低くする。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。