論文の概要: Generalisation of RLHF under Reward Shift and Clipped KL Regularisation
- arxiv url: http://arxiv.org/abs/2602.21765v1
- Date: Wed, 25 Feb 2026 10:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.798162
- Title: Generalisation of RLHF under Reward Shift and Clipped KL Regularisation
- Title(参考訳): 逆シフトとクリッピングKL規則化によるRLHFの一般化
- Authors: Kenton Tang, Yuzhu Chen, Fengxiang He,
- Abstract要約: 我々は、人間フィードバック(RLHF)からの強化学習のための一般化理論を開発する。
RLHFは、現在のポリシーを自身のロールアウトで最適化する一方、報奨モデルは、事前または混合の行動ポリシーからの選好データに基づいて訓練される。
本稿では,RLHFの一般化境界について述べる。この一般化誤差は,プロンプトとロールアウトによるサンプリング誤差,報酬シフト誤差,KLクリッピング誤差から生じることを示唆する。
この理論は、(1)最適なKLクリッピング閾値、(2)プロンプト、ロールアウト、および選好データにおける予算配分において、実用的な意味を持つ。
- 参考スコア(独自算出の注目度): 20.456598402422813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment and adaptation in large language models heavily rely on reinforcement learning from human feedback (RLHF); yet, theoretical understanding of its generalisability remains premature, especially when the learned reward could shift, and the KL control is estimated and clipped. To address this issue, we develop generalisation theory for RLHF that explicitly accounts for (1) \emph{reward shift}: reward models are trained on preference data from earlier or mixed behaviour policies while RLHF optimises the current policy on its own rollouts; and (2) \emph{clipped KL regularisation}: the KL regulariser is estimated from sampled log-probability ratios and then clipped for stabilisation, resulting in an error to RLHF. We present generalisation bounds for RLHF, suggesting that the generalisation error stems from a sampling error from prompts and rollouts, a reward shift error, and a KL clipping error. We also discuss special cases of (1) initialising RLHF parameters with a uniform prior over a finite space, and (2) training RLHF by stochastic gradient descent, as an Ornstein-Uhlenbeck process. The theory yields practical implications in (1) optimal KL clipping threshold, and (2) budget allocation in prompts, rollouts, and preference data.
- Abstract(参考訳): 大規模言語モデルにおけるアライメントと適応は、人間からのフィードバック(RLHF)からの強化学習に大きく依存するが、その一般化可能性に関する理論的理解は、特に学習報酬がシフトし、KL制御が推定され、クリップされる場合、未熟のままである。
この問題に対処するために、(1) \emph{reward shift}:報酬モデルが事前または混合行動ポリシーからの選好データに基づいて訓練され、(2) \emph{clipped KL regularisation}: KL正規化はサンプリングされたログ確率比から推定され、安定化のためにクリップされ、RLHFにエラーをもたらす。
本稿では,RLHFの一般化境界について述べる。この一般化誤差は,プロンプトとロールアウトによるサンプリング誤差,報酬シフト誤差,KLクリッピング誤差から生じることを示唆する。
また,(1)有限空間上に一様であるRLHFパラメータを初期化すること,(2)確率勾配降下によるRLHFの訓練をオルンシュタイン-ウレンベック法として検討する。
この理論は、(1)最適なKLクリッピング閾値、(2)プロンプト、ロールアウト、および選好データにおける予算配分において、実用的な意味を持つ。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文 参考訳(メタデータ) (2024-11-07T11:22:46Z) - UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。
この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。
RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文 参考訳(メタデータ) (2024-08-27T18:04:07Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [39.29350451006295]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
実験では、標準的なRLHFと比較して、特定の測定基準によって測定されるように、人間の嗜好に沿った29%から41%の改善が示されている。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - RL with KL penalties is better viewed as Bayesian inference [4.473139775790299]
我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。
これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
論文 参考訳(メタデータ) (2022-05-23T12:47:13Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。