論文の概要: Maximum Likelihood Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02710v1
- Date: Mon, 02 Feb 2026 19:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.029629
- Title: Maximum Likelihood Reinforcement Learning
- Title(参考訳): 最大等級強化学習
- Authors: Fahim Tajwar, Guanning Zeng, Yueer Zhou, Yuda Song, Daman Arora, Yiding Jiang, Jeff Schneider, Ruslan Salakhutdinov, Haiwen Feng, Andrea Zanette,
- Abstract要約: MaxRLは、強化学習技術を用いて、最大極大度を近似するサンプリングベースのフレームワークである。
MaxRLは,GRPOで訓練したものと比較して,最大20倍のスケーリング効率を達成できることを示す。
- 参考スコア(独自算出の注目度): 51.83034817019976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is the method of choice to train models in sampling-based setups with binary outcome feedback, such as navigation, code generation, and mathematical problem solving. In such settings, models implicitly induce a likelihood over correct rollouts. However, we observe that reinforcement learning does not maximize this likelihood, and instead optimizes only a lower-order approximation. Inspired by this observation, we introduce Maximum Likelihood Reinforcement Learning (MaxRL), a sampling-based framework to approximate maximum likelihood using reinforcement learning techniques. MaxRL addresses the challenges of non-differentiable sampling by defining a compute-indexed family of sample-based objectives that interpolate between standard reinforcement learning and exact maximum likelihood as additional sampling compute is allocated. The resulting objectives admit a simple, unbiased policy-gradient estimator and converge to maximum likelihood optimization in the infinite-compute limit. Empirically, we show that MaxRL Pareto-dominates existing methods in all models and tasks we tested, achieving up to 20x test-time scaling efficiency gains compared to its GRPO-trained counterpart. We also observe MaxRL to scale better with additional data and compute. Our results suggest MaxRL is a promising framework for scaling RL training in correctness based settings.
- Abstract(参考訳): 強化学習(Reinforcement learning)は、ナビゲーションやコード生成、数学的問題解決といったバイナリな結果フィードバックを備えたサンプリングベースのセットアップでモデルをトレーニングする方法である。
このような設定では、モデルが正しいロールアウトよりも暗黙的に確率を誘導する。
しかし、強化学習はこの可能性を最大化せず、代わりに下位階近似のみを最適化する。
この観察に触発されて,強化学習技術を用いた最大等級強化学習(MaxRL)を提案する。
MaxRLは、標準強化学習と、追加のサンプリング計算が割り当てられるときに正確な最大値とを補間する、計算インデクシングされたサンプルベースの目的の族を定義することで、非微分可能なサンプリングの課題に対処する。
得られた目的は、単純で偏りのない政策次数推定器を認め、無限計算極限における最大極大最適化に収束する。
実験により、MaxRL Pareto-はテスト対象のすべてのモデルやタスクにおいて既存のメソッドを支配しており、GRPOのトレーニング対象に比べて最大20倍のスケーリング効率向上を実現していることを示す。
また、MaxRLがさらなるデータや計算でより良くスケールできることも観察します。
以上の結果から,MaxRLはRLトレーニングを正しい設定でスケールアップする上で有望なフレームワークであることが示唆された。
関連論文リスト
- Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、不確実な環境で意思決定を行うための強力なフレームワークである。
先行モデル知識を取り入れて探索をガイドし,学習プロセスを加速することで,この問題に対処する。
シミュレーション研究において,BUMEXと呼ばれる探索手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-08T12:33:38Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。