論文の概要: OPD+: Rethinking the Advantage Design for On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.01039v1
- Date: Sun, 31 May 2026 06:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.159398
- Title: OPD+: Rethinking the Advantage Design for On-Policy Distillation
- Title(参考訳): OPD+: オンライン蒸留におけるアドバンテージ設計の再考
- Authors: Hanyang Zhao, Haoxian Chen, Han Lin, Genta Indra Winata, David Yao, Wenpin Tang,
- Abstract要約: 学生と教師間のf分割に基づく汎用的な最適化フレームワークを提供する。
ベースラインKLアプローチよりも性能が向上した OPD の修正版である OPD+ を提案する。
- 参考スコア(独自算出の注目度): 22.595911979858794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) is a widely used technique to transfer capabilities from capable teacher language models to the base student models, and can be formulated in a reinforcement learning style objective using student generated rollouts. Yet, despite the divergence reward being dependent on student model likelihood, existing works usually adopt a stop gradient design primarily for stability, which makes the resulting advantage estimation questionable. In this work, we provide a generic optimization framework based on f-divergence between the student and teacher, and mathematically revisit whether such design space is valid. We prove that general stop-gradient operation would lead to biased estimates of the reward objective and corresponding gradient for general divergence functions. We propose OPD+, the corrected version of OPD that demonstrates improved performance over the baseline KL approach and also supports the choice of various f-divergence. We validate our findings on mathematical reasoning and tool-use benchmarks.
- Abstract(参考訳): オンライン蒸留(On-policy distillation、OPD)は、有能な教師言語モデルから基礎的学生モデルへ機能を伝達するための広く使われている技術であり、学生が生成したロールアウトを用いて強化学習スタイルの目的に定式化することができる。
しかし、学生モデルの可能性に依存する分岐報酬にもかかわらず、既存の研究は通常、主に安定性のために停止勾配設計を採用するため、結果として得られる利点は疑問視される。
本研究では,学生と教師のf分割に基づく汎用的な最適化フレームワークを提供し,そのような設計空間が有効かどうかを数学的に再検討する。
一般的な停止勾配演算は、一般発散関数に対する報奨目標とそれに対応する勾配の偏りの推定に繋がることを示した。
我々は,ベースラインKLアプローチよりも性能が向上し,様々なf分割の選択もサポートしたOPDの修正版であるPD+を提案する。
数学的推論とツール・ユース・ベンチマークの結果を検証した。
関連論文リスト
- DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models [55.01951088768769]
DiffusionOPDはオンライン政策蒸留(OPD)に基づく拡散モデルのための新しいマルチタスクトレーニングパラダイムである
本研究では,DiffusionOPDがトレーニング効率と最終性能において,マルチリワードRLとカスケードRLのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-14T16:49:09Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Rubric-based On-policy Distillation [62.11106822527392]
オンライン蒸留(OPD)はモデルアライメントの強力なパラダイムであるが、教師のロジットに依存しているため、ホワイトボックスのシナリオへの適用が制限される。
構造化された意味ルーブリックは教師のロジットに代わるスケーラブルな代替品として機能し,教師が生成した応答のみを用いてOPDを可能にする。
具体的には、ROPDは教師と学生のコントラストからプロンプト固有のルーリックを誘導し、これらのルーリックを使用して学生のロールアウトをオンライン最適化に活用する。
論文 参考訳(メタデータ) (2026-05-08T07:52:15Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Preference Distillation via Value based Reinforcement Learning [16.165599808093408]
我々は,教師モデルの値関数から補助的な報酬を付与し,ソフトガイドを提供する,textitTeacher Value-based Knowledge Distillation (TVKD)を提案する。
TVKDは標準のDPOトレーニングフレームワークに統合することができ、追加のロールアウトを必要としない。
実験の結果,TVKDは様々なベンチマークやモデルサイズで連続的に性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-09-21T07:52:28Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Directional Gradient Projection for Robust Fine-Tuning of Foundation Models [25.04763038570959]
ディディショナル・グラディエント・プロジェクション(DiGraP)は、グラデーションからブリッジの正規化や多目的最適化に至るまでの方向性情報を階層的に学習可能な手法である。
まず,画像分類による視覚質問回答 (VQA) ベンチマークの分析により,一様・多モードのギャップを埋める。
実験結果から,DiGraPは画像分類やVQAタスクにおいて,識別的,生成的バックボーンで既存のベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-21T19:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。