論文の概要: Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.07527v2
- Date: Wed, 21 May 2025 08:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.289793
- Title: Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning
- Title(参考訳): 強化学習に基づく言語モデル推論のためのカルマンフィルタ拡張GRPO
- Authors: Hu Wang, Congbo Ma, Ian Reid, Mohammad Yaqub,
- Abstract要約: グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。
これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。
本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
- 参考スコア(独自算出の注目度): 11.708197376569016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward baseline is important for Reinforcement Learning (RL) algorithms to reduce variance in policy gradient estimates. Recently, for language modeling, Group Relative Policy Optimization (GRPO) is proposed to compute the advantage for each output by subtracting the mean reward, as the baseline, for all outputs in the group. However, it can lead to inaccurate advantage estimates in environments with highly noisy rewards, potentially introducing bias. In this work, we propose a model, called Kalman Filter Enhanced Group Relative Policy Optimization (KRPO), by using lightweight Kalman filtering to dynamically estimate the latent reward mean and variance. This filtering technique replaces the naive batch mean baseline, enabling more adaptive advantage normalization. Our method does not require additional learned parameters over GRPO. This approach offers a simple yet effective way to incorporate multiple outputs of GRPO into advantage estimation, improving policy optimization in settings where highly dynamic reward signals are difficult to model for language models. Through accuracy and rewards obtained from math question answering and reasoning, we show that using a more adaptive advantage estimation model, KRPO can improve the stability and performance of GRPO. The code is available at https://github.com/billhhh/KRPO_LLMs_RL.
- Abstract(参考訳): Reinforcement Learning(RL)アルゴリズムでは,政策勾配推定のばらつきを低減するために,リワードベースラインが重要である。
近年,言語モデリングにおいては,グループ内のすべての出力に対して,平均報酬をベースラインとして減算することで,各出力の利点を計算するためにグループ相対ポリシー最適化(GRPO)が提案されている。
しかし、これは非常にノイズの多い報奨を伴う環境における不正確な利点推定につながり、バイアスをもたらす可能性がある。
本研究では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
このフィルタリング技術は、より適応的な有利な正規化を可能にするため、単純バッチ平均ベースラインを置き換える。
本手法では,GRPO上での学習パラメータの追加は不要である。
このアプローチは、GRPOの複数の出力を利点評価に組み込むためのシンプルで効果的な方法を提供し、言語モデルでは高ダイナミックな報酬信号のモデル化が難しい設定におけるポリシーの最適化を改善する。
数学質問応答と推論から得られる精度と報奨により,KRPOはGRPOの安定性と性能を向上させることができることを示す。
コードはhttps://github.com/billhhh/KRPO_LLMs_RLで公開されている。
関連論文リスト
- Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。