論文の概要: Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.15311v1
- Date: Wed, 21 May 2025 09:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.423469
- Title: Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning
- Title(参考訳): 軌道ベルマン残差最小化:LLM推論のための簡易値に基づく方法
- Authors: Yurun Yuan, Fan Chen, Zeyu Jia, Alexander Rakhlin, Tengyang Xie,
- Abstract要約: 現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
- 参考スコア(独自算出の注目度): 55.33984461046492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-based methods currently dominate reinforcement learning (RL) pipelines for large language model (LLM) reasoning, leaving value-based approaches largely unexplored. We revisit the classical paradigm of Bellman Residual Minimization and introduce Trajectory Bellman Residual Minimization (TBRM), an algorithm that naturally adapts this idea to LLMs, yielding a simple yet effective off-policy algorithm that optimizes a single trajectory-level Bellman objective using the model's own logits as $Q$-values. TBRM removes the need for critics, importance-sampling ratios, or clipping, and operates with only one rollout per prompt. We prove convergence to the near-optimal KL-regularized policy from arbitrary off-policy data via an improved change-of-trajectory-measure analysis. Experiments on standard mathematical-reasoning benchmarks show that TBRM consistently outperforms policy-based baselines, like PPO and GRPO, with comparable or lower computational and memory overhead. Our results indicate that value-based RL might be a principled and efficient alternative for enhancing reasoning capabilities in LLMs.
- Abstract(参考訳): 現在、ポリシーベースの手法は、大規模言語モデル(LLM)推論のための強化学習(RL)パイプラインを支配しており、価値ベースのアプローチはほとんど探索されていない。
我々は、ベルマン残極最小化の古典的パラダイムを再検討し、このアイデアをLLMに自然に適応させるアルゴリズムであるトラジェクトリ・ベルマン残極最小化(TBRM)を導入し、モデル自身のロジットを$Q$-valuesとして、単一のトラジェクトリレベルのベルマン目的を最適化する単純で効果的なオフポリシーアルゴリズムを得る。
TBRMは、批評家、重要サンプリング比率、クリッピングの必要性を排除し、プロンプト毎に1回だけロールアウトする。
我々は、軌跡計測法の改良により、任意のオフポリシーデータから、最適に近いKL正規化ポリシーへの収束を証明した。
標準的な数学的推論ベンチマークの実験では、TBRMはPPOやGRPOのようなポリシーベースのベースラインを同等または低い計算とメモリオーバーヘッドで一貫して上回っている。
以上の結果から,LLMの推論能力を高めるために,値ベースRLは原則的かつ効率的な代替手段である可能性が示唆された。
関連論文リスト
- Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator [13.140242573639629]
オフライン強化学習(RL)は、分散シフトの大きな課題に直面している。
モデルフリーオフラインRLは、アウト・オブ・ディストリビューション(OOD)データに対するQ値のペナルティ化や、この問題を解決するために行動ポリシーに閉じたポリシーの制約を行う。
本稿では,保守的ベルマン演算子(MICRO)を用いた新しいモデルベースオフラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T02:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。