論文の概要: Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.29782v1
- Date: Thu, 28 May 2026 11:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.200785
- Title: Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning
- Title(参考訳): HistaとNumca: LLM強化学習に有効な評価状態
- Authors: Zizhe Chen, Jiqian Dong, Yizhou Tian, Garry Yang, Yongqiang Chen, Zhitang Chen, James Cheng,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は、報酬信号を通じてモデル動作を直接最適化することにより、大きな言語モデル(LLM)を洗練する。
既存のRLフレームワーク内での状態推定を評価するための状態値推定ベンチマーク(SVEB)を導入する。
数値スパンを段階的なマイルストーンとして活用するNumcaと,LLMの隠蔽状態を重み付き平均解離ロールアウトの表現として利用するHistaの2つの手法を提案する。
- 参考スコア(独自算出の注目度): 18.614878630206487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) refines large language models (LLMs) by directly optimizing model behavior through reward signals. While accurate state value estimation is critical for stable training in classical RL, it remains an underexplored challenge in LLM post-training. In this work, we introduce the State Value Estimation Benchmark (SVEB) to assess state estimation within existing RL frameworks and show that critics in standard approaches like PPO collapse to a coarse group-average baseline. To address this, we propose two techniques: Numca, which leverages numerical spans as gradable milestones for state value estimation, and Hista, a framework that uses LLM's hidden states as representation to weighted average disjoint rollouts and their return. Extensive experiments demonstrate that both methods yield more accurate state value estimates and enhance training performance across different RL algorithms and model sizes without incurring significant computational overhead.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、報酬信号を通じてモデル動作を直接最適化することにより、大きな言語モデル(LLM)を洗練する。
古典的RLの安定トレーニングには正確な状態値推定が重要であるが、LLMのポストトレーニングでは未探索の課題である。
本研究では,既存のRLフレームワークにおける状態推定のための状態評価ベンチマーク(SVEB)を導入し,PPOのような標準アプローチの批判者が,粗いグループ平均ベースラインに崩壊することを示す。
この問題を解決するために,数値スパンを段階的なマイルストーンとして活用するNumcaと,LLMの隠蔽状態を重み付き平均解離ロールアウトの表現として利用するHistaという2つの手法を提案する。
大規模な実験により、どちらの手法もより正確な状態値推定を行い、計算オーバーヘッドを伴わずに異なるRLアルゴリズムとモデルサイズにわたるトレーニング性能を向上させることが示されている。
関連論文リスト
- Reinforcement Learning from Denoising Feedback [22.358386875891053]
拡散言語モデル(dLLMs)の強化学習(RL)における政策損失推定は依然として基礎的かつ長期にわたる課題である。
本稿では、ロールアウトとトレーニングプロセスから得られたフィードバックを活用して、正確かつ効率的なポリシー損失推定を容易にする新しいトレーニングパラダイムであるReinforcement Learning from Denoising Feedback (RLDF)を紹介する。
RLDFは、複数の推論ベンチマークにおいて、2つの代表的なdLLMアーキテクチャであるLLaDAとDreamのパフォーマンスと一般化性の両方において、一貫性と実質的な改善を実現している。
論文 参考訳(メタデータ) (2026-05-25T09:39:13Z) - Off-Policy Value-Based Reinforcement Learning for Large Language Models [25.962820072445222]
ReValはベルマン更新に基づく手法で、内部の一貫性を捉える段階的な信号と、結果検証から導出される軌道レベルの信号を組み合わせる。
DeepSeek-R1-Distill-1.5Bでは、ReValはトレーニング効率を改善し、AIME24の2.7%、GRPOのGPQAの4.5%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-24T15:55:02Z) - RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文 参考訳(メタデータ) (2026-02-13T12:56:31Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - A Comedy of Estimators: On KL Regularization in RL Training of LLMs [81.7906270099878]
強化学習(RL)は,大規模言語モデル(LLM)の推論性能を大幅に向上させる
LLMトレーニングのRLの目的は、トレーニングされたポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)分岐である正規化項を含む。
近年の研究では、KL正則化の実施が目的の正しい勾配を与えていないことが示されており、目的と実施の相違が生じている。
いくつかの推定器構成の勾配について検討し、設計選択が勾配バイアスをどう形成するかを明らかにする。
論文 参考訳(メタデータ) (2025-12-26T04:20:58Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。