論文の概要: $V_0$: A Generalist Value Model for Any Policy at State Zero
- arxiv url: http://arxiv.org/abs/2602.03584v1
- Date: Tue, 03 Feb 2026 14:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.511684
- Title: $V_0$: A Generalist Value Model for Any Policy at State Zero
- Title(参考訳): $V_0$: ステートゼロにおける任意のポリシーに対するジェネリストの値モデル
- Authors: Yi-Kai Zhang, Zhiyuan Yao, Hongyan Hao, Yueqing Sun, Qi Gu, Hui Su, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。
このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。
未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
- 参考スコア(独自算出の注目度): 80.7505802128501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods rely on a baseline to measure the relative advantage of an action, ensuring the model reinforces behaviors that outperform its current average capability. In the training of Large Language Models (LLMs) using Actor-Critic methods (e.g., PPO), this baseline is typically estimated by a Value Model (Critic) often as large as the policy model itself. However, as the policy continuously evolves, the value model requires expensive, synchronous incremental training to accurately track the shifting capabilities of the policy. To avoid this overhead, Group Relative Policy Optimization (GRPO) eliminates the coupled value model by using the average reward of a group of rollouts as the baseline; yet, this approach necessitates extensive sampling to maintain estimation stability. In this paper, we propose $V_0$, a Generalist Value Model capable of estimating the expected performance of any model on unseen prompts without requiring parameter updates. We reframe value estimation by treating the policy's dynamic capability as an explicit context input; specifically, we leverage a history of instruction-performance pairs to dynamically profile the model, departing from the traditional paradigm that relies on parameter fitting to perceive capability shifts. Focusing on value estimation at State Zero (i.e., the initial prompt, hence $V_0$), our model serves as a critical resource scheduler. During GRPO training, $V_0$ predicts success rates prior to rollout, allowing for efficient sampling budget allocation; during deployment, it functions as a router, dispatching instructions to the most cost-effective and suitable model. Empirical results demonstrate that $V_0$ significantly outperforms heuristic budget allocation and achieves a Pareto-optimal trade-off between performance and cost in LLM routing tasks.
- Abstract(参考訳): ポリシー勾配法は、アクションの相対的な優位性を測定するためにベースラインに依存し、モデルが現在の平均能力を上回る行動を強化することを保証する。
Actor-Critic 法 (例えば PPO) を用いたLarge Language Models (LLMs) のトレーニングでは、このベースラインは通常、ポリシーモデル自体と同じくらい大きな値モデル (Critic) によって推定される。
しかし、ポリシーが継続的に進化するにつれて、バリューモデルはポリシーのシフト能力を正確に追跡するために、高価な同期的なインクリメンタルトレーニングを必要とします。
このオーバヘッドを回避するため,GRPO(Group Relative Policy Optimization)は,ロールアウト群の平均報酬をベースラインとして,結合値モデルを排除する。
本稿では,パラメータ更新を必要とせずに,未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルである$V_0$を提案する。
我々は、ポリシーの動的能力を明示的な文脈入力として扱い、特に、パラメータフィッティングに依存する伝統的なパラダイムから離れて、命令性能ペアの歴史を活用してモデルを動的にプロファイリングする。
状態ゼロ(すなわち初期プロンプト、つまり$V_0$)での値推定に焦点を当て、我々のモデルは重要なリソーススケジューラとして機能する。
GRPOトレーニング中、$V_0$はロールアウト前に成功率を予測し、効率的なサンプリング予算割り当てを可能にし、デプロイメント中にルータとして機能し、最もコスト効率の良い適切なモデルに命令をディスパッチする。
V_0$はヒューリスティックな予算配分を著しく上回り、LLMルーティングタスクのパフォーマンスとコストの間のパレート最適トレードオフを実現する。
関連論文リスト
- Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - M3PO: Massively Multi-Task Model-Based Policy Optimization [46.42871544295734]
我々は、スケーラブルなモデルベース強化学習フレームワークであるM3PO(Massively Multi-Task Model-Based Policy Optimization)を紹介する。
M3POは、シングルタスク設定におけるサンプルの非効率とマルチタスクドメインにおける低一般化に対処する。
M3POは暗黙の世界モデルを統合し、観察の再構築なしにタスクの結果を予測するように訓練され、ハイブリッドな探索戦略が組み込まれている。
論文 参考訳(メタデータ) (2025-06-26T21:39:01Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Conservative Bayesian Model-Based Value Expansion for Offline Policy
Optimization [41.774837419584735]
オフライン強化学習(英語版) (RL) は、ある行動ポリシーに従って収集された固定されたデータのバッチからパフォーマンスポリシーを学習する問題に対処する。
モデルベースのアプローチは、環境のモデルを学ぶことによって、ログ化されたデータセットからより多くの学習信号を抽出できるため、特に魅力的である。
論文 参考訳(メタデータ) (2022-10-07T20:13:50Z) - Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。
提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文 参考訳(メタデータ) (2022-08-03T22:02:50Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。