論文の概要: Trust Region On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.01249v2
- Date: Wed, 03 Jun 2026 04:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.592499
- Title: Trust Region On-Policy Distillation
- Title(参考訳): 信頼領域オン・ポリシィ蒸留
- Authors: Xingrun Xing, Haoqing Wang, Boyan Gao, Ziheng Li, Yehui Tang,
- Abstract要約: On-Policy Distillation (OPD) は、大規模言語モデルの効率的なポストトレーニング手法である。
この研究は、信用割当戦略を通じて、信頼できるオン・ポリティクスのトークンレベルの監督に対処する。
実験の結果、TrOPDはSoTA OPDベースラインを一貫して上回ることがわかった。
- 参考スコア(独自算出の注目度): 38.98697509635889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-Policy Distillation (OPD) is a fundamental technique for efficient post-training of large language models (LLMs), with broad applications in agent learning, multi-task enhancement, and model compression. However, OPD training becomes unstable when the teacher and student distributions differ substantially, as teacher supervision on student-generated tokens may yield unreliable policy gradients and even cause optimization failure. This work addresses reliable on-policy token-level supervision through credit assignment strategies, and proposes Trust Region On-Policy Distillation, TrOPD. It features the following characteristics: 1) Trust-Region On-Policy Learning: TrOPD performs OPD only in regions where the teacher provides reliable supervision, mitigating the optimization difficulty of the K1 reverse-KL estimator under distribution mismatch. 2) Outlier Estimation: For outlier regions, we explore gradient clipping, masking, and forward-KL estimation to reduce the adverse effects of unreliable supervision. 3) Off-Policy Guidance: The student continues generation from teacher prefixes and uses forward KL to imitate off-policy guidance, encouraging on-policy exploration toward reliable regions. Experiments show that TrOPD consistently outperforms SoTA OPD baselines, including OPD, EOPD, and REOPOLD, across mathematical reasoning, code generation, and general-domain benchmarks.
- Abstract(参考訳): On-Policy Distillation (OPD) は、エージェント学習、マルチタスク強化、モデル圧縮に広く応用された、大規模言語モデル(LLM)の効率的なポストトレーニングのための基礎技術である。
しかし、教師と生徒の分布が著しく異なる場合、学生が生成するトークンの教師監督が信頼できない政策勾配を生じさせ、最適化の失敗を引き起こす可能性があるため、PDトレーニングは不安定になる。
本研究は、信用割当て戦略を通じて、信用的トークンレベルの信頼できる監督に対処し、信頼的地域オン・ポリシィ蒸留(TrOPD)を提案する。
以下の特徴を特徴とする。
1)信頼関係のオンライン学習: TrOPDは教師が信頼できる監督を行う地域でのみOPDを行い、分布ミスマッチ時のK1逆KL推定器の最適化困難を緩和する。
2) アウトリエ推定では, 傾斜切削, マスキング, 前方KL推定について検討し, 信頼性の低い監視の悪影響を低減した。
3) オフ・ポリティ・ガイダンス: 教師の接頭辞から生成を継続し, フォワードKLを用いてオフ・ポリティ・ガイダンスを模倣し, 信頼性のある地域へのオン・ポリティ・サーベイを奨励する。
実験の結果、TrOPDは数学的推論、コード生成、一般ドメインベンチマークなど、OPD、EPPD、REOPOLDを含むSoTA OPDベースラインを一貫して上回っていることがわかった。
関連論文リスト
- Extreme Region Policy Distillation [36.61472284280031]
積極的多段階最適化は早い初期ゲインをもたらすが、過度な更新は軌道の確率を逸脱させ、エントロピーを崩壊させる。
これは、サンプル効率をKL効率から切り離す2段階のフレームワークであるERPD(Extreme Region Policy Distillation)を動機付けている。
論文 参考訳(メタデータ) (2026-05-25T08:32:24Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Teacher-Guided Policy Optimization for LLM Distillation [90.49982387646861]
Teacher-Guided Policy Optimization (TGPO) は、生徒のロールアウトに条件付き教師予測を活用することで、高密度な方向性誘導を取り入れたオンラインアルゴリズムである。
複雑な推論ベンチマークの実験では、TGPOは標準ベースラインを著しく上回り、異なる教師にとって堅牢であることが示されている。
論文 参考訳(メタデータ) (2026-05-13T09:20:03Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。