論文の概要: Reinforcement Learning from Rich Feedback with Distributional DAgger
- arxiv url: http://arxiv.org/abs/2606.05152v1
- Date: Wed, 03 Jun 2026 17:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.948031
- Title: Reinforcement Learning from Rich Feedback with Distributional DAgger
- Title(参考訳): 分散ダガーを用いたリッチフィードバックからの強化学習
- Authors: Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad,
- Abstract要約: 推論モデルは急速に進歩しているが、検証可能な報酬(RLVR)のレシピからの有力な強化学習は驚くほど狭いままである。
本研究では,古典的模倣学習アルゴリズムDAggerの分布変種を用いて,そのようなフィードバックの使い方について検討する。
これは、ブラックボックスの専門家を認め、シーケンスレベルの勾配が将来の専門家と学生の意見の相違を伝播することによって、豊かな信用割り当てを行う、単純なフォワード・クロスエントロピーの目的をもたらす。
- 参考スコア(独自算出の注目度): 9.188497824291854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.
- Abstract(参考訳): 推論モデルは急速に進歩してきたが、検証可能な報酬(RLVR)レシピからの圧倒的な強化学習は、驚くほど狭いままである。
しかし、多くの設定は、実行トレース、ツールアウトプット、専門家の修正、モデルによる自己評価など、豊富なフィードバックを提供する。
本研究では,従来の模倣学習アルゴリズムDAggerの分布変種を用いて,そのようなフィードバックの活用方法について検討する。
これにより、ブラックボックスの専門家とシーケンシャルレベルの勾配 {プロパゲーションによるリッチクレジットの割り当てを許容する単純なフォワード・クロスエントロピーの目標が得られます。
逆KLまたはJensen-Shannonに基づく自己蒸留目標を持つ以前のRLは、一律的な政策改善を保証できない。
対照的に、前向きのクロスエントロピーは単調な政策改善を認め、後悔の保証を享受していることを示す。
さらに,我々の目的は,教師による成功の可能性の低い境界を最適化することを示し,Pass@Nの改良につながった。
実証的に、我々のアプローチであるDistILは、科学的推論、コーディング、難解な数学的問題の解決など、さまざまな領域にわたる自己蒸留ベースラインで、RLVRとRLよりも改善されている。
関連論文リスト
- SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs [55.46289074417954]
検証可能な報酬(RLVR)による強化学習は、推論タスクのpass@1を確実に改善するが、pass@kでは同等の利得を得られないことが多い。
中心的な構造的制約は、トレーニングを安定させるが、本質的には基準分布にポリシーを固定する逆-KL正規化から生じる。
我々は,逆KLアンカー分布自体を再構成することで,制御可能な経験的サポート拡張を可能にする,原則化されたフレームワークであるSAGEを提案する。
論文 参考訳(メタデータ) (2026-05-15T07:42:21Z) - Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。