論文の概要: Value-Gradient Hypothesis of RL for LLMs
- arxiv url: http://arxiv.org/abs/2605.21654v1
- Date: Wed, 20 May 2026 19:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.968682
- Title: Value-Gradient Hypothesis of RL for LLMs
- Title(参考訳): LLM用RLの値勾配仮説
- Authors: Arip Asadulaev, Daniil Ognev, Karim Salta, Martin Takac,
- Abstract要約: 強化学習は事前訓練された言語モデルを大幅に改善する。
PPOやGRPOのような批判のない手法がなぜ機能するのか、いつ最大の利益をもたらすべきかは、いまだ検討されていない。
- 参考スコア(独自算出の注目度): 1.983259889617852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning substantially improves pretrained language models, but it remains understudied why critic-free methods such as PPO and GRPO work as well as they do, and when they should provide the largest gains. We develop a value-gradient perspective of critic-free RL for LLM post-training. First, under a differentiable rollout and additive-noise parameterization, we show that the actor update is value-gradient-like in expectation: the backward pass propagates costates whose conditional expectation equals the value gradient. Second, for discrete transformer policies, we show that autodifferentiation through attention produces empirical costates that approximate this value signal, with an error controlled by the sampling gap and policy entropy. These results motivate a decomposition of RL impact into value gradient signal and reachable reward headroom, yielding a criterion for when RL should be most effective along a pretraining trajectory.
- Abstract(参考訳): 強化学習は、事前訓練された言語モデルを大幅に改善するが、なぜPPOやGRPOのような批判のない手法が機能するのか、そしていつ最大の利益をもたらすべきかは、まだ検討されていない。
我々は,LLMポストトレーニングにおける批判のないRLの段階的視点を開発する。
まず、異なるロールアウトと付加雑音パラメータ化の下で、アクター更新が期待値の段階的様相であることが示され、後進パスは、条件付き期待値が値勾配に等しいコストを伝搬する。
第2に、離散トランスフォーマーポリシーにおいて、注意による自己微分は、サンプリングギャップとポリシーエントロピーによって制御される誤差で、この値信号に近似した経験的コストを発生させることを示す。
これらの結果から,RLの影響を値勾配信号と到達可能な報奨ヘッドルームに分解し,事前学習軌道に沿ってRLが最も効果的である場合の基準を得た。
関連論文リスト
- EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - Reinforcement Learning via Value Gradient Flow [32.59594977900539]
本稿では,参照分布に対する正規化が重要となる行動規則化強化学習(RL)について検討する。
本稿では、振る舞い規則化RLのためのスケーラブルな新しいパラダイムであるValue Gradient Flow (VGF)を提案する。
VGFは、行動規則化されたRLを、基準分布を値誘導の最適ポリシー分布にマッピングする最適な輸送問題とみなす。
論文 参考訳(メタデータ) (2026-04-15T17:12:56Z) - Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning [18.371323066068104]
信用割当は強化学習(RL)における中心的課題である
本稿では,1ショットスカラー値の予測を生成評論家に置き換えるジェネラティブ・アクター・クリティカル(Generative Actor-Critic, GenAC)を提案する。
GenACは、値近似、ランキング信頼性、アウト・オブ・ディストリビューションの一般化を改善している。
論文 参考訳(メタデータ) (2026-04-12T15:54:11Z) - Off-Policy Value-Based Reinforcement Learning for Large Language Models [25.962820072445222]
ReValはベルマン更新に基づく手法で、内部の一貫性を捉える段階的な信号と、結果検証から導出される軌道レベルの信号を組み合わせる。
DeepSeek-R1-Distill-1.5Bでは、ReValはトレーニング効率を改善し、AIME24の2.7%、GRPOのGPQAの4.5%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-24T15:55:02Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - The Value-Improvement Path: Towards Better Representations for
Reinforcement Learning [46.70945548475075]
我々は、RLエージェントが直面する値予測問題は、独立して対処すべきではなく、単一の、全体論的、予測問題として扱うべきだと論じる。
RLアルゴリズムは、少なくとも概ね最適なポリシーに向けて改善される一連のポリシーを生成する。
我々は、過去の価値改善パスにまたがる表現が、将来の政策改善に正確な価値評価をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-03T12:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。