論文の概要: HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation
- arxiv url: http://arxiv.org/abs/2603.23871v1
- Date: Wed, 25 Mar 2026 02:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.101351
- Title: HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation
- Title(参考訳): HDPO: 原始自己蒸留によるハイブリッド蒸留政策最適化
- Authors: Ken Ding,
- Abstract要約: 本稿では,崖のプロンプトをターゲットとした自己蒸留による標準RLを増強するハイブリッド蒸留政策最適化(HDPO)を提案する。
教師と生徒は同じ重み(入力でのみ異なる)を共有しているため、実現可能性のギャップは証明可能な境界である。
Qwen2.5-Math-1.5B-InstructによるOpenMath Instruct-2の実験は、HDPOが常にカバレッジメトリクスを改善していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models trained with reinforcement learning (RL) for mathematical reasoning face a fundamental challenge: on problems the model cannot solve at all - "cliff" prompts - the RL gradient vanishes entirely, preventing any learning signal from reaching these failure modes. We introduce Hybrid Distillation Policy Optimization (HDPO), which augments standard RL with privileged self-distillation targeting cliff prompts. On each training step, HDPO identifies prompts where all rollouts fail, generates privileged rollouts by providing the model with ground-truth information, filters for correct solutions, and distills the teacher's token-level distribution into the student. Because teacher and student share the same weights - differing only in their input - the realizability gap is provably bounded, unlike cross-model distillation. We prove that R=1 filtered privileged generation recovers the optimal KL-regularized RL policy in the hard-threshold limit. Experiments on OpenMathInstruct-2 with Qwen2.5-Math-1.5B-Instruct show that HDPO consistently improves coverage metrics (pass@4 by +0.8-1.1%, pass@8 by +0.4-1.7%) while maintaining greedy accuracy, with the distillation weight lambda providing direct control over the exploration-exploitation tradeoff.
- Abstract(参考訳): 数学的推論のために強化学習(RL)で訓練された大規模な言語モデルは、根本的な課題に直面している。
本稿では,崖のプロンプトをターゲットとした自己蒸留による標準RLを増強するハイブリッド蒸留政策最適化(HDPO)を提案する。
トレーニングステップ毎に、HDPOは、すべてのロールアウトが失敗するプロンプトを特定し、モデルに地味な情報を提供し、正しい解のフィルタを提供し、教師のトークンレベルの分布を学生に蒸留することにより、特権的なロールアウトを生成する。
教師と学生は同じ重み(入力でのみ異なる)を共有しているため、実現可能性のギャップはクロスモデル蒸留とは異なり、証明可能な有界である。
我々は、R=1フィルタされた特権生成が最適なKL正規化RLポリシーをハードスレッショルド限界で回復することを証明した。
Qwen2.5-Math-1.5B-InstructによるOpenMath Instruct-2の実験では、HDPOは熱い精度を維持しながらカバレッジの指標(pass@4 × +0.8-1.1%、pass@8 × +0.4-1.7%)を一貫して改善し、蒸留重量ラムダは探査と探査のトレードオフを直接制御している。
関連論文リスト
- Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity [13.211627219720796]
強化学習(Reinforcement Learning, RL)は、推論に関わる課題を解決するためにLLMをチューニングするためのデファクトスタンダードとなっている。
我々は、RLが暗黙的に「モード探索」あるいは「ゼロ強制」逆KLを目標分布に最適化し、モデルがターゲットの特定の高確率領域に質量を集中させることを論じる。
そこで本研究では,まず,正解の相対確率を無視しながら,不正確な解をフィルタリングして得られる明示的対象分布から始める。
論文 参考訳(メタデータ) (2025-12-05T18:56:40Z) - No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping [35.34724727629745]
ゼロ分散プロンプトから学習信号を抽出する新しいアルゴリズムであるゼロ分散プロンプト(RL-ZVP)を導入する。
RL-ZVPは、応答を対比することなく、直接正しさを報償し、エラーを罰する。
6つの数学推論ベンチマークで、RL-ZVPはGRPOよりも最大8.61ポイント、パスレート7.77ポイントの大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-09-26T05:03:54Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。