論文の概要: Rethinking KL Regularization in RLHF: From Value Estimation to Gradient Optimization
- arxiv url: http://arxiv.org/abs/2510.01555v1
- Date: Thu, 02 Oct 2025 01:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.929787
- Title: Rethinking KL Regularization in RLHF: From Value Estimation to Gradient Optimization
- Title(参考訳): RLHFにおけるKL正規化の再考:値推定から勾配最適化へ
- Authors: Kezhao Liu, Jason Klein Liu, Mingtao Chen, Yiming Liu,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、Kulback-Leibler (KL) の分散損失を利用してトレーニングを安定させ、オーバーフィッティングを防ぐ。
GRPOのような手法では、数値値の推定からその実装を導出することができる。
- 参考スコア(独自算出の注目度): 6.136585583991053
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) leverages a Kullback-Leibler (KL) divergence loss to stabilize training and prevent overfitting. However, in methods such as GRPO, its implementation may be guided by principles from numerical value estimation-a practice that overlooks the term's functional role as an optimization loss. To analyze this issue, we establish a unified framework that connects two seemingly distinct implementation styles: using the mathematical term $k_n$ as a detached coefficient for the policy's score function ('$k_n$ in reward') or as a direct loss function through which gradients are propagated ('$k_n$ as loss'). We show that the latter can always be analyzed via an equivalent gradient coefficient in the former, unifying the two perspectives. Through this framework, we prove that the conventional '$k_1$ in reward' (like in PPO) is the principled loss for Reverse KL (RKL) regularization. We further establish a key finding: under on-policy conditions, the '$k_2$ as loss' formulation is, in fact, gradient-equivalent to '$k_1$ in reward'. This equivalence, first proven in our work, identifies both as the theoretically sound implementations of the RKL objective. In contrast, we show that the recently adopted '$k_3$ as loss' (like in GRPO) is merely a first-order, biased approximation of the principled loss. Furthermore, we argue that common off-policy implementations of '$k_n$ as loss' methods are biased due to neglected importance sampling, and we propose a principled correction. Our findings provide a comprehensive, gradient-based rationale for choosing and correctly implementing KL regularization, paving the way for more robust and effective RLHF systems.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、Kulback-Leibler (KL) の分散損失を利用してトレーニングを安定させ、オーバーフィッティングを防ぐ。
しかし、GRPOのような手法では、その実装は数値推定の原理から導かれるかもしれない。
この問題を解析するために、政策のスコア関数の分離係数として$k_n$という数学的項を用いる('$k_n$ in reward')か、勾配が伝播する直接損失関数として('$k_n$ as loss')という、明らかに異なる実装スタイルを結合する統一的なフレームワークを確立する。
後者は、前者における等価勾配係数によって常に解析可能であることを示し、2つの視点を統一する。
この枠組みを通じて、従来の「$k_1$ in reward」は逆KL(RKL)正則化の原則的損失であることを示す。
政治上の条件下では、'$k_2$ as loss'の定式化は、実際には'$k_1$ in reward'と同値である。
この等価性は、我々の研究で最初に証明されたもので、RKLの目的の理論的に健全な実装である。
対照的に、最近採用された'$k_3$ as loss'(GRPOのように)は、単に原則的損失の1次偏差近似である。
さらに,「損失として$k_n$」メソッドの一般的な非政治的実装は,重要度を欠いたサンプリングによってバイアスを受けており,原理的な修正が提案されている。
本研究は,より堅牢で効果的なRLHFシステムを実現するために,KL正則化を選択し,正しく実装するための包括的,勾配に基づく理論的根拠を提供する。
関連論文リスト
- A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - On Corruption-Robustness in Performative Reinforcement Learning [13.509499718691016]
本研究では,反復的再訓練アプローチの適応的安定政策への収束性について検討する。
私たちはこれらのアプローチを拡張して、腐敗したデータの下で運用します。
我々は,我々のアプローチがほぼ安定な政策に最終段階の収束を示すことを証明した。
論文 参考訳(メタデータ) (2025-05-08T19:37:35Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。