論文の概要: Are Full Rollouts Necessary for On-Policy Distillation?
- arxiv url: http://arxiv.org/abs/2605.31490v2
- Date: Mon, 01 Jun 2026 13:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.930524
- Title: Are Full Rollouts Necessary for On-Policy Distillation?
- Title(参考訳): オンライン蒸留には全ロールアウトが必要か?
- Authors: Yaocheng Zhang, Jiajun Chai, Yuqian Fu, Songjun Tu, Xiaohan Wang, Wei Lin, Guojun Yin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao,
- Abstract要約: オンライン蒸留(OPD)は、学生が生み出すロールアウトに沿って密集した教師のフィードバックを提供する。
我々は、ロールアウトの地平線を、トレーニング効率に大きく影響を及ぼすOPDの重要なボトルネックとみなす。
本稿では,トレーニング中に徐々にロールアウト地平線を拡大するプログレッシブPDと,信頼性の高い切り抜きロールアウトで恒久的に蒸留を行うTrncated OPDの2つの簡単な水平制御戦略を提案する。
- 参考スコア(独自算出の注目度): 63.18243901591995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) provides dense teacher feedback along student-generated rollouts rather than fixed teacher traces and has emerged as a promising post-training paradigm. However, standard OPD typically generates full rollouts during training, which is computationally expensive and may expose the student to unreliable teacher feedback at late rollout positions, especially during early training. We identify the rollout horizon as a key bottleneck in OPD that substantially impacts training efficiency. Unlike Reinforcement Learning with Verifiable Rewards (RLVR), OPD does not require a final answer reward to provide learning signals. Therefore, full rollouts may not always be necessary for OPD. Motivated by this insight, we propose two simple horizon-control strategies: Progressive OPD (POPD), which gradually expands the rollout horizon during training, and Truncated OPD (TOPD), which permanently performs distillation on reliable truncated rollouts. Experiments on mathematical reasoning show that POPD improves the training efficiency of OPD by up to 3$\times$, while TOPD matches OPD performance using only 10\% of the rollout horizon, leading to substantial wall-clock and memory reductions. These results demonstrate that controlling the rollout horizon offers a simple and practical path to more efficient OPD.
- Abstract(参考訳): オンライン蒸留(OPD)は、教師の足跡ではなく、生徒が生み出すロールアウトに沿って密集した教師のフィードバックを提供し、将来性のあるポストトレーニングパラダイムとして登場した。
しかし、標準的なOPDは通常、訓練中に完全なロールアウトを発生させるが、これは計算に高価であり、特に初期のトレーニングにおいて、学生が遅いロールアウト位置で信頼できない教師のフィードバックに晒す可能性がある。
我々は、ロールアウトの地平線を、トレーニング効率に大きく影響を及ぼすOPDの重要なボトルネックとみなす。
Reinforcement Learning with Verifiable Rewards (RLVR)とは異なり、OPDは学習信号を提供するために最終的な回答報酬を必要としない。
したがって、OPDにはフルロールアウトが必ずしも必要ではないかもしれない。
そこで本研究では,トレーニング中に徐々にロールアウト地平線を拡大するプログレッシブPD(POPD)と,信頼性の高いロールアウトを恒久的に蒸留するTrncated OPD(TOPD)の2つの単純な水平制御戦略を提案する。
数学的推論実験により、PDはPDのトレーニング効率を最大3$\times$で改善する一方、TOPDはロールアウト水平線のわずか10%でPD性能と一致し、ウォールクロックとメモリの大幅な削減につながった。
これらの結果から, ロールアウト水平方向の制御は, より効率的なOPDへの単純かつ実用的な経路を提供することが示された。
関連論文リスト
- ADWIN: Adaptive Windows for Horizon-Aware On-Policy Distillation [11.916633988612439]
オンライン蒸留(OPD)は、学生が生み出す軌道に沿って教師のフィードバックを訓練することで、推論の振る舞いを伝達する。
我々は、ロールアウト長をオンライン許容判定として扱うOPD用適応ウィンドウフレームワークADWINを提案する。
論文 参考訳(メタデータ) (2026-05-27T12:33:44Z) - EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation [5.310892696470208]
On-Policy Distillation (OPD)はLLMポストトレーニングパラダイムとして広く注目を集めている。
このアプローチの課題は、特権情報によって、意図よりもモデル行動を変えることができることだ。
EviDence GuidEd On-Policy Distillation (EDGE-OPD)を提案する。
論文 参考訳(メタデータ) (2026-05-22T10:55:15Z) - Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation [51.210887267509854]
OPDの効率は、トレーニングの初期段階において最終モデルに向けた安定的な更新軌道を確立する、フォレスト・オブ・ザ・イヤーズ(foresight')の形式に起因している、と我々は主張する。
我々は、外挿ステップのサイズを適応的に選択し、現在の更新方向に沿って移動することにより、OPDを高速化するプラグイン・アンド・プレイ・アクセラレーション手法である textbfEffOPD を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:19:15Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation [7.2992280064983825]
オンライン蒸留(OPD)は、大規模言語モデルの効率的な後訓練パラダイムとして登場した。
標準PDは、トレーニングを通してライブの教師推論サーバーを必要とし、その結果、かなりのインフラストラクチャーオーバーヘッドを発生させる。
我々は,教師の対数確率をSFTロールアウトにプリ計算することで教師の一貫性を強制するオフラインのオンライン蒸留フレームワークであるLightning OPDを提案する。
論文 参考訳(メタデータ) (2026-04-14T17:44:50Z) - Fast and Effective On-policy Distillation from Reasoning Prefixes [5.0200371345178]
オンライン蒸留(OPD)は学生モデルの軌跡を抽出し、トークンレベルで教師と監督する。
そこで本研究では, 学生生成出力のプレフィックスのみに蒸留目標を適用し, 蒸留の早期に各サンプリングを終了する, 簡易かつ効果的なPDの修正を提案する。
AI-for-Mathベンチマークとアウト・オブ・ベンチマークの実験では、オンラインプレフィックス蒸留はフルPDのパフォーマンスと一致し、FLOPのトレーニングを2倍-47倍削減した。
論文 参考訳(メタデータ) (2026-02-16T23:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。