論文の概要: BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.27293v1
- Date: Tue, 26 May 2026 17:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.47516
- Title: BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing for LLM Reasoning
- Title(参考訳): BASIS:LLM推論のためのシングルロール情報共有によるバッチ的アドバンテージ推定
- Authors: Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi,
- Abstract要約: 既存のアルゴリズムは、値推定とポリシー学習における計算効率とサンプル効率のトレードオフに直面している。
このトレードオフに対処するために,ポストフリーな批判アルゴリズムを導入する。
実験では、REINFORCE++と比較して、値関数推定のMSEを69%削減している。
- 参考スコア(独自算出の注目度): 9.698479933114552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards has become a standard recipe for improving the reasoning abilities of large language models. Existing algorithms face a tradeoff between computational efficiency and sample efficiency in value estimation and policy learning. We introduce BASIS, a critic-free post-training algorithm designed to address this tradeoff. At each online training step, BASIS samples only one rollout per prompt, but leverages rich information across prompts in the entire batch to improve value function estimation. Our experiments demonstrate that BASIS reduces MSE in value function estimation by 69% compared to REINFORCE++, a representative single-rollout baseline, and achieves lower MSE with one rollout than group mean estimators with 8 rollouts. This improvement in value estimation translates to better policy optimization: using substantially less training time, BASIS achieves performance close to multi-rollout GRPO-type baselines and often outperforms single-rollout REINFORCE-type baselines.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、大規模言語モデルの推論能力を改善するための標準的なレシピとなっている。
既存のアルゴリズムは、値推定とポリシー学習における計算効率とサンプル効率のトレードオフに直面している。
このトレードオフに対処するために,批判のないポストトレーニングアルゴリズムであるBASISを紹介する。
オンライントレーニングの各ステップでは、BASISはプロンプト毎に1回のロールアウトのみをサンプリングするが、バッチ全体のプロンプト全体にわたる豊富な情報を活用して、値関数の推定を改善する。
実験の結果,BASIS は単一ロールアウトベースラインであるREINFORCE++ と比較して値関数推定の MSE を 69% 削減し,グループ平均8ロールアウト推定値よりも1ロールアウトで MSE を低くすることがわかった。
BASISは、トレーニング時間を大幅に減らし、マルチロールのGRPO型ベースラインに近いパフォーマンスを達成し、シングルロールのREINFORCE型ベースラインを上回っている。
関連論文リスト
- Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States [14.658333957936769]
内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
論文 参考訳(メタデータ) (2026-05-08T10:49:36Z) - Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards [26.5011687714416]
既存のグループベースのポリシー最適化手法は、すべてのトレーニングプロンプトに対して一定数のロールアウトを割り当てる。
この均一な割り当ては全てのプロンプトを等しく情報的扱いし、非効率的な計算予算の使用と訓練の進捗を妨げる可能性がある。
本稿では、既存のバッチのプロンプトに所定のロールアウト予算を割り当て、ポリシー更新のグラデーションのばらつきを最小限に抑える可変インフォームド予測割当戦略であるVIPを紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:50:01Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning [6.050409262589219]
本稿では,アドバンスト参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
本手法は,グループ内比較によって生じる累積バイアスを効果的に補正し,トレーニング中のロールアウト数への依存を著しく低減する。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-28T09:18:26Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。