論文の概要: Learning from Language Feedback via Variational Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.15113v2
- Date: Mon, 18 May 2026 19:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.359892
- Title: Learning from Language Feedback via Variational Policy Distillation
- Title(参考訳): 変分政策蒸留による言語フィードバックからの学習
- Authors: Yang Li, Erik Nijkamp, Semih Yavuz, Shafiq Joty,
- Abstract要約: 変分ポリシー蒸留(VPD)は、言語フィードバックからの学習を変分期待最大化問題として形式化するフレームワークである。
VPDは標準のRLVRと既存の自己蒸留ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 47.05700353631563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) suffers from sparse outcome signals, creating severe exploration bottlenecks on complex reasoning tasks. Recent on-policy self-distillation methods attempt to address this by utilizing language feedback to generate dense, token-level supervision. However, these approaches rely on a fixed, passive teacher to interpret the feedback. As the student policy improves, the teacher's zero-shot assessment capabilities plateau, ultimately halting further learning. To overcome this, we propose Variational Policy Distillation (VPD), a framework that formalizes learning from language feedback as a Variational Expectation-Maximization (EM) problem. VPD co-evolves both policies: in the E-step, the teacher is actively refined on trajectory outcomes via an adaptive trust-region update, translating textual feedback into a dynamically improved target token distribution. In the M-step, the student internalizes this dense distributional guidance on its own on-policy rollouts. By continuously improving the teacher's ability to extract actionable signals from textual critique, VPD overcomes the limitations of passive distillation. Evaluated across diverse sources of diagnostic feedback on scientific reasoning and code generation tasks, VPD consistently outperforms both standard RLVR and existing self-distillation baselines. Finally, by stress-testing our framework on rigid mathematical reasoning and cold-start regimes, we illuminate the fundamental bounds of feedback-driven self-distillation compared to pure environment-driven RL.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、粗末な結果信号に悩まされ、複雑な推論タスクにおいて深刻な調査ボトルネックが生じる。
近年のオンライン自己蒸留法では、言語フィードバックを利用して、密集したトークンレベルの監視を生成する手法が試みられている。
しかし、これらのアプローチはフィードバックを解釈するために、固定された受動的教師に依存している。
生徒の政策が改善するにつれて、教師のゼロショット評価能力は高められ、最終的にはそれ以上の学習を停止する。
そこで我々は,言語フィードバックからの学習を変分期待最大化(EM)問題として形式化するフレームワークである変分ポリシー蒸留(VPD)を提案する。
Eステップでは、教師は適応的な信頼領域更新を通じて軌道上の結果に基づいて積極的に洗練され、テキストフィードバックを動的に改善されたターゲットトークン分布に変換する。
Mステップでは、学生は、この密集した分布誘導を独自のオン・ポリティクス・ロールアウトで内部化する。
テキスト批判から実行可能な信号を抽出する教師の能力を継続的に改善することにより、VPDは受動的蒸留の限界を克服する。
VPDは科学的推論とコード生成タスクに関する様々な診断フィードバックのソースで評価され、標準のRLVRと既存の自己蒸留ベースラインを一貫して上回っている。
最後に、厳密な数学的推論とコールドスタート体制の枠組みをストレステストすることにより、純粋な環境駆動型RLと比較してフィードバック駆動型自己蒸留の基本的な境界を照明する。
関連論文リスト
- Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Teacher-Guided Policy Optimization for LLM Distillation [90.49982387646861]
Teacher-Guided Policy Optimization (TGPO) は、生徒のロールアウトに条件付き教師予測を活用することで、高密度な方向性誘導を取り入れたオンラインアルゴリズムである。
複雑な推論ベンチマークの実験では、TGPOは標準ベースラインを著しく上回り、異なる教師にとって堅牢であることが示されている。
論文 参考訳(メタデータ) (2026-05-13T09:20:03Z) - Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation [71.16738415436458]
本稿では、生の障害フィードバックを補正管理のアクティブソースに変換するフレームワークであるReflection-Enhanced Self-Distillation(RESD)を紹介する。
RESDは、局所的なエラーを診断するために振り返りリフレクションを生成し、持続的なグローバルなプレイブックをキュレートすることで、障害の軌跡を解釈する。
複数の連続学習課題に対する実証的な評価は、RESDが標準の自己蒸留ベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-12T20:46:05Z) - OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning [19.98950359294245]
本研究は,教師の特権分布を自己の自給自足軌道に沿って蒸留することにより,言語モデルによる推論能力の向上を図ることを目的とする。
OPSDの性能向上にもかかわらず,教師と生徒の反応のミスマッチがよく見過ごされがちである。
論文 参考訳(メタデータ) (2026-05-12T17:00:53Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。