論文の概要: ADWIN: Adaptive Windows for Horizon-Aware On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.28396v1
- Date: Wed, 27 May 2026 12:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.046143
- Title: ADWIN: Adaptive Windows for Horizon-Aware On-Policy Distillation
- Title(参考訳): ADWIN: 水平型オンライン蒸留用アダプティブウィンドウ
- Authors: Kun Liang, Chenming Tang, Clive Bai, Weijie Liu, Saiyong Yang, Yunfang Wu,
- Abstract要約: オンライン蒸留(OPD)は、学生が生み出す軌道に沿って教師のフィードバックを訓練することで、推論の振る舞いを伝達する。
我々は、ロールアウト長をオンライン許容判定として扱うOPD用適応ウィンドウフレームワークADWINを提案する。
- 参考スコア(独自算出の注目度): 11.916633988612439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) transfers reasoning behavior by training a student on teacher feedback along student-generated trajectories, but standard full-rollout training ties every update to a costly completion and can over-allocate supervision to late positions with low marginal value for the current student. We revisit this assumption through the useful supervision horizon: student-induced rollouts can drift from teacher-preferred continuations, while aligned prefixes may already preserve the long-horizon OPD update direction. We propose ADWIN, an adaptive-window framework for OPD that treats rollout length as an online admissibility decision, training on short teacher-anchored prefixes while using delayed full-rollout probes to audit prefix--full alignment and adapt the next horizon with staleness control. Across math and code reasoning benchmarks in single-task, multi-task, and strong-to-weak settings, ADWIN improves the accuracy--compute trade-off over full-rollout OPD and prefix-based baselines, reducing end-to-end training cost by up to 4.1 times while achieving comparable or better accuracy.
- Abstract(参考訳): オンライン蒸留(OPD)は、学生が生み出した軌跡に沿って教師のフィードバックを訓練することで推論の振る舞いを伝達するが、標準的なフルロールアウトトレーニングは、更新のたびにコストのかかる完了に結びつき、現在の学生の限界値の低い後期に監督を過度に配置することができる。
学生が引き起こすロールアウトは教師が優先する継続から逸脱しうるが、アライメントプレフィックスは、既に長い水平PD更新方向を保っている可能性がある。
本稿では,オンライン適応性判定としてロールアウト長の適応ウィンドウフレームワークであるADWINを提案する。遅延フルロールアウトプローブを用いて,プレフィックスアライメントの監査を行い,次の水平線を安定化制御で適応させる。
シングルタスク、マルチタスク、強弱設定の数学とコード推論ベンチマーク全体にわたって、ADWINは完全ロールアウトのOPDとプレフィックスベースのベースラインよりも高精度なトレードオフを改善し、エンドツーエンドのトレーニングコストを最大4.1倍削減し、同等またはより良い精度を達成する。
関連論文リスト
- Distribution Corrected Offline Data Distillation for Large Language Models [8.778789513095907]
強力な大規模言語モデルから小さなものへの推論トレースを蒸留することは、リソース制約された設定におけるインテリジェンスを改善するための有望な方法である。
教師が生成したトレースからのオフライン蒸留は、高品質でサンプル効率の高い監視を提供するが、分散的ドリフトに悩まされる。
そこで本研究では,教師の分散ドリフトを補正しつつ,教師が生成するオフラインデータの効率性と監督品質を保ちつつ,教師の分散ドリフトを補正する原理的オフライン推論蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T19:47:31Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation [7.2992280064983825]
オンライン蒸留(OPD)は、大規模言語モデルの効率的な後訓練パラダイムとして登場した。
標準PDは、トレーニングを通してライブの教師推論サーバーを必要とし、その結果、かなりのインフラストラクチャーオーバーヘッドを発生させる。
我々は,教師の対数確率をSFTロールアウトにプリ計算することで教師の一貫性を強制するオフラインのオンライン蒸留フレームワークであるLightning OPDを提案する。
論文 参考訳(メタデータ) (2026-04-14T17:44:50Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。