論文の概要: RL2ML: Finite-Rollout Surrogate Objectives from Reinforcement Learning to Maximum Likelihood
- arxiv url: http://arxiv.org/abs/2605.30154v1
- Date: Thu, 28 May 2026 16:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.474518
- Title: RL2ML: Finite-Rollout Surrogate Objectives from Reinforcement Learning to Maximum Likelihood
- Title(参考訳): RL2ML:強化学習から最大様相への有限ロールアウトサロゲート対象
- Authors: Yifu Zheng,
- Abstract要約: 本稿では、有限ロールアウトされた代理対象の族であるRL2MLを、閉形式、正確に偏りのない勾配推定器で開発する。
代理目的の最良の選択は、最大可能性に近づいたり、人口レベルの重みだけで決められたりしないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correctness-based Reinforcement Learning with Verifiable Rewards (RLVR) trains language models from binary feedback on sampled outputs, but the objective optimized in expectation and the stochastic update geometry induced by finite rollout groups are often conflated. This paper develops RL2ML, a family of finite-rollout surrogate objectives with a closed-form, exactly unbiased gradient estimator. The family continuously connects standard reinforcement learning, maximum-likelihood-like training, and beyond-maximum-likelihood objectives while preserving estimator-objective alignment under a fixed rollout budget. We introduce the group-level update scale to characterize how a rollout group is reweighted after its empirical success count is observed, revealing a subcritical-supercritical update-scale transition that is hidden by population-level objective notation alone. Building on this distinction, calibrated metric-gain analysis and exact variance decomposition show that the best choice of surrogate objective is determined neither by proximity to maximum likelihood nor by the population-level weight alone. Instead, it depends jointly on the evaluation metric, local sensitivity, and estimator variance. The remaining degree of freedom in the surrogate objective family can therefore be formulated as a one-dimensional optimization problem rather than treated as an unconstrained hyperparameter.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、サンプル出力のバイナリフィードバックから言語モデルを訓練するが、期待に最適化された目的と、有限ロールアウトグループによって誘導される確率的更新幾何は、しばしば混同される。
本稿では、有限ロールアウトされた代理対象の族であるRL2MLを、閉形式、正確に偏りのない勾配推定器で開発する。
家族は、固定的なロールアウト予算の下で推定対象のアライメントを維持しながら、標準的な強化学習、最大様相のトレーニング、最大様相の目標を継続的に結び付けている。
本研究では,集団レベルの更新尺度を導入し,集団レベルの目標表記だけで隠蔽されるサブクリティカル・スーパークリティカルな更新尺度への移行を明らかにする。
この分離, 計量利得分析, 正確な分散分解により, 代理対象の最適選択は最大公準に近づかなかったり, 人口レベルの重みだけでは決定されなかった。
その代わり、評価基準、局所感度、推定値の分散に共同で依存する。
したがって、代理対象族における残りの自由度は、制約のないハイパーパラメータとして扱われるよりも、一次元最適化問題として定式化することができる。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - Importance-Guided Basis Selection for Low-Rank Decomposition of Large Language Models [9.690793619550654]
本稿では,BSI(Basis Selection with Importance)について紹介する。
我々は,Hutchinsonランダム化探索法を適用し,対称なパラメータ摂動による曲率の減少に適応して,効率的なヘシアン対角推定器を開発した。
本稿では, ベースプルーニングによる損失増加境界, ヘッセン対角線推定誤差のこれらの境界への明示的伝播, ヘッセンスペクトルに関連付けられた分散特性, 目標推定精度を達成するための高確率サンプル-複雑度保証, 摂動強度のガイダンスなど, 包括的な理論的解析を行う。
論文 参考訳(メタデータ) (2026-05-02T22:35:02Z) - Goal-Oriented Influence-Maximizing Data Acquisition for Learning and Optimization [28.53710231018475]
逆曲率による不確実性認識を保ちながら、明示的な後部推論を回避する能動的取得アルゴリズムを提案する。
GOIMDAは、ユーザが指定したゴール関数に対する期待する影響を最大化し、入力を選択する。
一般化線形モデルでは,GOIMDA はゴールアライメントと予測バイアスを考慮した補正項までの予測エントロピー最小化を近似する。
論文 参考訳(メタデータ) (2026-02-23T07:57:11Z) - Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making [0.0]
バンディットフィードバックからの1次元しきい値ポリシーのオンライン学習について検討する。
我々は,報酬と制約残差に対する信頼境界を維持する単純なグリッドベース手法であるOptimistic Feasible Search (OFS)を提案する。
論文 参考訳(メタデータ) (2025-12-26T10:44:40Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。