論文の概要: Towards a Theoretical Understanding to the Generalization of RLHF
- arxiv url: http://arxiv.org/abs/2601.16403v1
- Date: Fri, 23 Jan 2026 02:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.510927
- Title: Towards a Theoretical Understanding to the Generalization of RLHF
- Title(参考訳): RLHFの一般化への理論的理解に向けて
- Authors: Zhaochun Li, Mingyang Yi, Yue Wang, Shisheng Cui, Yong Liu,
- Abstract要約: 我々は線形報酬モデルの下で LLM の RLHF 上の一般化理論を構築する。
この結果は, RLHF 後の LLM の一般化を実証的に観測する新たな理論的証拠を与えるものであると論じる。
- 参考スコア(独自算出の注目度): 15.278675771756541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) and its variants have emerged as the dominant approaches for aligning Large Language Models with human intent. While empirically effective, the theoretical generalization properties of these methods in high-dimensional settings remain to be explored. To this end, we build the generalization theory on RLHF of LLMs under the linear reward model, through the framework of algorithmic stability. In contrast to the existing works built upon the consistency of maximum likelihood estimations on reward model, our analysis is presented under an end-to-end learning framework, which is consistent with practice. Concretely, we prove that under a key \textbf{feature coverage} condition, the empirical optima of policy model have a generalization bound of order $\mathcal{O}(n^{-\frac{1}{2}})$. Moreover, the results can be extrapolated to parameters obtained by gradient-based learning algorithms, i.e., Gradient Ascent (GA) and Stochastic Gradient Ascent (SGA). Thus, we argue that our results provide new theoretical evidence for the empirically observed generalization of LLMs after RLHF.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)とその変種は、大規模言語モデルと人間の意図を整合させる主要なアプローチとして現れている。
経験的効果はあるものの、これらの手法の高次元設定における理論的一般化特性について検討する。
この目的のために,線形報酬モデルに基づくLLMのRLHFに関する一般化理論を,アルゴリズム安定性の枠組みを用いて構築する。
報酬モデル上での最大推定値の整合性に基づく既存の研究とは対照的に,本分析はエンド・ツー・エンド・ラーニング・フレームワークの下で実施されている。
具体的には、キー \textbf{feature coverage} 条件の下では、ポリシーモデルの経験的最適性は次数$\mathcal{O}(n^{-\frac{1}{2}})$の一般化境界を持つ。
さらに、勾配に基づく学習アルゴリズム、すなわちグラディエント・アセント(GA)と確率グラディエント・アセント(SGA)から得られるパラメータに外挿することもできる。
したがって, この結果は, RLHF 後の LLM の一般化を実証的に観測する新たな理論的証拠となる。
関連論文リスト
- OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning [12.77713716713937]
一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。
勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。
さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:09:28Z) - Algorithm- and Data-Dependent Generalization Bounds for Score-Based Generative Models [27.78637798976204]
スコアベース生成モデル(SGM)は、生成モデルの最も一般的なクラスの一つである。
本稿では,SGMのためのアルゴリズムおよびデータ依存分析法を提案する。
特に、学習アルゴリズムのダイナミクスを説明し、SGMの振る舞いに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T11:33:04Z) - Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z) - Can DPO Learn Diverse Human Values? A Theoretical Scaling Law [7.374590753074647]
嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練する。
本稿では,値の多様性とサンプル量とともに一般化がいかにスケールするかを解析するための新しい理論的枠組みを提案する。
我々のフレームワークは、有限個の勾配ステップの後、モデルがどのように一般化するかを厳格に評価する。
論文 参考訳(メタデータ) (2024-08-06T22:11:00Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。