論文の概要: Generalisation of RLHF under Reward Shift and Clipped KL Regularisation
- arxiv url: http://arxiv.org/abs/2602.21765v1
- Date: Wed, 25 Feb 2026 10:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.798162
- Title: Generalisation of RLHF under Reward Shift and Clipped KL Regularisation
- Title(参考訳): 逆シフトとクリッピングKL規則化によるRLHFの一般化
- Authors: Kenton Tang, Yuzhu Chen, Fengxiang He,
- Abstract要約: 我々は、人間フィードバック(RLHF)からの強化学習のための一般化理論を開発する。
RLHFは、現在のポリシーを自身のロールアウトで最適化する一方、報奨モデルは、事前または混合の行動ポリシーからの選好データに基づいて訓練される。
本稿では,RLHFの一般化境界について述べる。この一般化誤差は,プロンプトとロールアウトによるサンプリング誤差,報酬シフト誤差,KLクリッピング誤差から生じることを示唆する。
この理論は、(1)最適なKLクリッピング閾値、(2)プロンプト、ロールアウト、および選好データにおける予算配分において、実用的な意味を持つ。
- 参考スコア(独自算出の注目度): 20.456598402422813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment and adaptation in large language models heavily rely on reinforcement learning from human feedback (RLHF); yet, theoretical understanding of its generalisability remains premature, especially when the learned reward could shift, and the KL control is estimated and clipped. To address this issue, we develop generalisation theory for RLHF that explicitly accounts for (1) \emph{reward shift}: reward models are trained on preference data from earlier or mixed behaviour policies while RLHF optimises the current policy on its own rollouts; and (2) \emph{clipped KL regularisation}: the KL regulariser is estimated from sampled log-probability ratios and then clipped for stabilisation, resulting in an error to RLHF. We present generalisation bounds for RLHF, suggesting that the generalisation error stems from a sampling error from prompts and rollouts, a reward shift error, and a KL clipping error. We also discuss special cases of (1) initialising RLHF parameters with a uniform prior over a finite space, and (2) training RLHF by stochastic gradient descent, as an Ornstein-Uhlenbeck process. The theory yields practical implications in (1) optimal KL clipping threshold, and (2) budget allocation in prompts, rollouts, and preference data.
- Abstract(参考訳): 大規模言語モデルにおけるアライメントと適応は、人間からのフィードバック(RLHF)からの強化学習に大きく依存するが、その一般化可能性に関する理論的理解は、特に学習報酬がシフトし、KL制御が推定され、クリップされる場合、未熟のままである。
この問題に対処するために、(1) \emph{reward shift}:報酬モデルが事前または混合行動ポリシーからの選好データに基づいて訓練され、(2) \emph{clipped KL regularisation}: KL正規化はサンプリングされたログ確率比から推定され、安定化のためにクリップされ、RLHFにエラーをもたらす。
本稿では,RLHFの一般化境界について述べる。この一般化誤差は,プロンプトとロールアウトによるサンプリング誤差,報酬シフト誤差,KLクリッピング誤差から生じることを示唆する。
また,(1)有限空間上に一様であるRLHFパラメータを初期化すること,(2)確率勾配降下によるRLHFの訓練をオルンシュタイン-ウレンベック法として検討する。
この理論は、(1)最適なKLクリッピング閾値、(2)プロンプト、ロールアウト、および選好データにおける予算配分において、実用的な意味を持つ。
関連論文リスト
- Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文 参考訳(メタデータ) (2024-11-07T11:22:46Z) - UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。
この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。
RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文 参考訳(メタデータ) (2024-08-27T18:04:07Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。