論文の概要: On-Policy Distillation with Best-of-N Teacher Rollout Selection
- arxiv url: http://arxiv.org/abs/2605.09725v2
- Date: Wed, 13 May 2026 03:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.839858
- Title: On-Policy Distillation with Best-of-N Teacher Rollout Selection
- Title(参考訳): ベスト・オブ・N教師のロールアウト選択によるオン・ポリシィ蒸留
- Authors: Ke Zhang, Yunjie Tian, Dongdi Zhao, Yijiang Li, Yuanye Liu, Vishal M Patel, Di Fu,
- Abstract要約: 本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
- 参考スコア(独自算出の注目度): 54.91780727674628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD), which supervises a student on its own sampled trajectories, has emerged as a data-efficient post-training method for improving reasoning while avoiding the reward dependence of reinforcement learning and the catastrophic forgetting often observed in standard supervised fine-tuning. However, standard OPD typically computes teacher supervision under noisy student-generated contexts and often relies on a single stochastic teacher rollout per prompt. As a result, the supervision signal can be high-variance: the sampled teacher trajectory can be incorrect, uninformative, or poorly matched to the student's current reasoning behavior. To address this limitation, we propose BRTS, a Best-of-N Rollout Teacher Selection framework for on-policy distillation. BRTS augments standard student-context OPD with a teacher-context supervision branch constructed from the curated teacher trajectory. Rather than distilling from the first sampled teacher rollout, BRTS samples a small pool of teacher trajectories and selects the auxiliary trajectory using a simple priority rule: correctness first, student alignment second. When multiple correct teacher trajectories are available, BRTS chooses the one most aligned with the student's current behavior; when unconditioned teacher samples fail on harder prompts, it invokes a ground-truth-conditioned recovery step to elicit a natural derivation. The selected trajectory is then used to provide reliable teacher-context supervision inside the OPD loop, augmented with an auxiliary loss on the teacher trajectory. Experiments on AIME 2024, AIME 2025, and AMC 2023 show that BRTS improves over standard OPD on challenging reasoning benchmarks, with the largest gains on harder datasets. Our code is available at https://github.com/BWGZK-keke/BRTS.
- Abstract(参考訳): オンライン蒸留(OPD, On-policy distillation)は, 学生を自前のサンプル軌道で監督する手法であり, 強化学習の報酬依存や, 標準的な微調整でしばしば見られる破滅的な忘れを回避しつつ, 推論を改善するためのデータ効率のよいポストトレーニング手法として登場した。
しかし、標準OPDは通常、ノイズの多い学生生成状況下で教師の監督を計算し、プロンプトごとに1つの確率的な教師のロールアウトに依存することが多い。
その結果、教師の軌跡は、生徒の現在の推論行動に不正確、非形式的、あるいは不整合である。
この制限に対処するために, BRTS は, オンライン蒸留のための最良Nロールアウト教師選択フレームワークである。
BRTSは、カリキュラムされた教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、最初のサンプリングされた教師のロールアウトから蒸留する代わりに、教師の軌道の小さなプールをサンプリングし、単純な優先規則(正当性第一、学生のアライメント第二)を用いて補助的軌道を選択する。
複数の正しい教師の軌道が利用できる場合、BRTSは生徒の現在の行動に最も適しているものを選び、無条件の教師のサンプルがより厳しいプロンプトで失敗すると、自然の導出を誘発するために地道な条件の回復ステップを起動する。
選択された軌跡は、教師の軌跡に補助的損失を伴い、PDループ内における教師コンテキストの信頼性を高めるために使用される。
AIME 2024、AIME 2025、AMC 2023の実験では、BRTSは、挑戦的な推論ベンチマークにおいて標準OPDよりも改善され、より厳しいデータセットで最大の増加が示されている。
私たちのコードはhttps://github.com/BWGZK-keke/BRTS.comで公開されています。
関連論文リスト
- Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment [82.00769536768509]
Rank-Surprisal Ratioは、推論軌道の適合性を評価するためにアライメントとインフォメーションの両方をキャプチャする単純な計量である。
軌道選択と教師選択の両方において,その実用性を実証する。
論文 参考訳(メタデータ) (2026-01-20T18:58:10Z) - Distilling Reasoning into Student LLMs: Local Naturalness for Selecting Teacher Data [18.97748910748554]
そこで本研究では,局所自然度(Local Naturalness)について紹介する。
多くの教師の回答を混ぜ合わせると、Local Naturalnessは32Bの学生の数学のベンチマークの精度を、グローバルセレクションよりも9.4pp向上させる。
これらの結果は, ローカライズされたデータ品質評価とデータ混合により, より効果的に蒸留できることを示すものである。
論文 参考訳(メタデータ) (2025-10-05T01:15:32Z) - From Correction to Mastery: Reinforced Distillation of Large Language Model Agents [13.982204994247718]
大規模言語モデルエージェントは反復的推論とツールの使用を通じて複雑なタスクの解決に長けている。
既存の蒸留手法は、小規模の生徒に完全な教師の軌跡を模倣するように訓練する。
本研究では,教師が最初期の誤りのみを訂正する学習者中心のフレームワークであるSCoReを提案する。
論文 参考訳(メタデータ) (2025-09-12T15:34:07Z) - Merge-of-Thought Distillation [23.53356244978525]
マージ・オブ・ソート蒸留(Merge-of-Thought Distillation、MoT)は、教師固有の教師付き微調整ブランチと、結果として生じる生徒の変種をマージする重み空間を代替する軽量フレームワークである。
競合数学のベンチマークでは、Qwen3-14Bの学生にMoTを適用すると、Deepseek-R1、Qwen3-32B、OpenAI-O1といった強力なモデルを超える。
MoTは、最高の単教師蒸留よりも優れており、数学以外の一般的な推論を改善し、分散シフトとピアレベルの教師に対して堅牢性を示している。
論文 参考訳(メタデータ) (2025-09-10T17:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。