論文の概要: LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2605.19416v2
- Date: Fri, 22 May 2026 09:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.694782
- Title: LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models
- Title(参考訳): LambdaPO: 言語モデルの推論のためのLambdaスタイルポリシー最適化
- Authors: Zhe Yuan, Yipeng Zhou, Jinghan Li, Xinyuan Chen, Bowen Deng, Zhiqian Chen, Liang Zhao,
- Abstract要約: グループ相対政策最適化は、明示的な価値批判を先導する効果で評価されている。
群平均のようなモノリシックな統計ベースラインへの依存は、軌道空間の相対トポロジーを1つのスカラーに分解する。
我々は、この情報理論のボトルネックに対処する新しいフレームワークLambda Policy Optimization(LambdaPO)を紹介します。
- 参考スコア(独自算出の注目度): 34.349722314481824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization(GRPO) has become a cornerstone of modern reinforcement learning alignment, prized for its efficacy in foregoing an explicit value-critic by leveraging reward normalization across sampled trajectory cohorts. However, the method's reliance on a monolithic statistical baseline, such as the group mean, collapses the relational topology of the trajectory space into a single scalar, thereby erasing the fine-grained preference information essential for navigating complex, rank-sensitive reward landscapes. To address this issue, we introduce a novel framework, Lambda Policy Optimization (LambdaPO), that addresses this information-theoretic bottleneck by re-conceptualizing advantage estimation from a scalar value to a decomposed, pairwise preference structure. Specifically, the advantage for any given trajectory is formulated as the integrated sum of reward differentials against all peers in its cohort, where each pairwise comparison is dynamically attenuated by the policy's own probabilistic confidence in the established preference. To further mitigate the sparsity of binary outcome supervision, we augment the objective with a semantic density reward, derived from the precision-recall alignment between generated reasoning traces and ground-truth solutions. As a result, our method can mine more fine-grained optimization signals from a group of rollouts, guiding the LLM to a better optima. Experimental results across challenging math reasoning and question-answering tasks demonstrates that LambdaPO improves performance compared to the baseline methods.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は現代の強化学習アライメントの基盤となり、サンプル軌跡コホート間の報酬正規化を活用することで、明示的な価値批判を先導する効果で評価されている。
しかし、群平均のようなモノリシックな統計ベースラインへの依存は、軌道空間のリレーショナルトポロジを1つのスカラーに分解し、複雑でランクに敏感な報酬景観をナビゲートするのに必要となる、きめ細かい選好情報を消去する。
この問題に対処するために、スカラー値から分解されたペアの選好構造への利点推定を再概念化することにより、この情報理論のボトルネックに対処する新しいフレームワークLambdaPO(LambdaPO)を導入する。
具体的には、任意の軌道の利点は、そのコホート内の全てのピアに対する報酬差の積分和として定式化され、それぞれのペア比較は、確立された嗜好に対するポリシーの確率的信頼によって動的に減衰される。
二つの結果監視の空間性をさらに軽減するため, 生成した推論トレースと地道解との精度・リコールアライメントから, 意味密度報酬を用いて目的を増強する。
その結果,LLMを最適に導くことで,ロールアウト群からより微細な最適化信号のマイニングが可能となった。
難解な数学推論と質問応答タスクによる実験結果から、LambdaPOはベースラインメソッドよりもパフォーマンスが向上することが示された。
関連論文リスト
- Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex [43.502315311491635]
検証可能な報酬(RLVR)による強化学習は、推論能力のインセンティブを得るための訓練後の大規模言語モデル(LLM)の標準的アプローチとなっている。
この研究は、これらの最適化戦略が共通の幾何学的構造を共有していることを明らかにする。
本稿では,ターゲット投影を明示的に行うためにLPO(Listwise Policy Optimization)を提案する。これは応答単純度に近似RLの目的を限定することで暗黙の目標をデミストし,正確な発散最小化によってポリシーを投影する。
論文 参考訳(メタデータ) (2026-05-07T12:38:17Z) - How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics [65.67654005892469]
適切なインスタンス依存サンプリングは、より強力なランキング保証を得られる一方で、スキュードオン政治サンプリングは、構造化された嗜好の下で過剰な濃度を誘導できることを示す。
次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的なアライメントダイナミクスを分析する。
我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
論文 参考訳(メタデータ) (2026-02-12T17:11:08Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。