論文の概要: Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States
- arxiv url: http://arxiv.org/abs/2605.07579v2
- Date: Mon, 11 May 2026 03:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.412086
- Title: Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States
- Title(参考訳): 言語モデルは自分自身の批判である:アクターの内部状態から価値を推定した強化学習
- Authors: Yunho Choi, Jongwon Lim, Woojin Ahn, Minjae Oh, Jeonghoon Shim, Yohan Jo,
- Abstract要約: 内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
- 参考スコア(独自算出の注目度): 14.658333957936769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) for Large Reasoning Models hinges on baseline estimation for variance reduction, but existing approaches pay a heavy price: PPO requires a policy-model scale critic, while GRPO needs multiple rollouts per prompt to keep its empirical group mean stable. We introduce Policy Optimization with Internal State Value Estimation), which obtains a baseline at negligible cost by using the policy model's internal signals already computed during the policy forward pass. A lightweight probe predicts the expected verifiable reward from the hidden states of the prompt and generated trajectory, as well as token-entropy statistics, and is trained online alongside the policy. To preserve gradient unbiasedness despite using trajectory-conditioned features, we introduce a cross-rollout construction that predicts each rollout's value from an independent rollout's internal states. Because POISE estimates prompt value using only a single rollout, it enables higher prompt diversity for a fixed compute budget during training. This reduces gradient variance for more stable learning and also eliminates the compute overhead of sampling costs for detecting zero-advantage prompts. On Qwen3-4B and DeepSeek-R1-Distill-Qwen-1.5B across math reasoning benchmarks, POISE matches DAPO while requiring less compute. Moreover, its value estimator shows similar performance to a separate LLM-scale value model and generalizes to various verifiable tasks. By leveraging the model's own internal representations, POISE enables more stable and efficient policy optimization.
- Abstract(参考訳): 大規模推論モデルに対する検証可能な報酬付き強化学習(RLVR)は、分散削減のためのベースライン推定に頼っているが、既存のアプローチでは、高額な価格を支払う: PPOはポリシーモデルスケールの批判を必要とするが、GRPOは経験的グループを安定させるために、即座に複数のロールアウトを必要とする。
我々は、政策モデルの内部信号を用いて、政策フォワードパス中に既に計算済みの政策モデルの内部信号を用いて、無視可能なコストで基準値を得る、内部状態価値推定を伴う政策最適化を導入する。
軽量プローブは、プロンプトと生成された軌道の隠れ状態から予測可能な報酬を予測し、トークンエントロピー統計をオンラインにトレーニングする。
軌道条件付き特徴を用いたとしても勾配不偏性を維持するために,独立ロールアウトの内部状態から各ロールアウト値を予測するクロスロールアウト構造を導入する。
POISEは、単一のロールアウトのみを使用して、迅速な価値を見積もっているため、トレーニング中の固定された計算予算に対して、より迅速な多様性を実現することができる。
これにより、より安定した学習のための勾配分散を低減し、ゼロアドバンテージプロンプトを検出するためのサンプリングコストの計算オーバーヘッドをなくすことができる。
Qwen3-4BとDeepSeek-R1-Distill-Qwen-1.5Bは、計算量が少なくてDAPOにマッチする。
さらに、その値推定器は、別個のLLMスケールの値モデルと同等の性能を示し、様々な検証可能なタスクに一般化する。
モデルの内部表現を活用することで、POISEはより安定的で効率的なポリシー最適化を可能にします。
関連論文リスト
- $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - $V_0$: A Generalist Value Model for Any Policy at State Zero [80.7505802128501]
ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。
このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。
未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
論文 参考訳(メタデータ) (2026-02-03T14:35:23Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Shrinking the Variance: Shrinkage Baselines for Reinforcement Learning with Verifiable Rewards [12.074691741125044]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模推論モデルの訓練後において強力なパラダイムとして登場した。
本研究では,全プロンプト平均推定精度を向上させるために,全プロンプト平均値と全プロンプト平均値を組み合わせた縮小推定器を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:43:15Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。