論文の概要: $f$-Divergence Regularized RLHF: Two Tales of Sampling and Unified Analyses
- arxiv url: http://arxiv.org/abs/2605.06977v1
- Date: Thu, 07 May 2026 21:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.639179
- Title: $f$-Divergence Regularized RLHF: Two Tales of Sampling and Unified Analyses
- Title(参考訳): $f$-divergence Regularized RLHF: サンプリングと統一分析の2つの物語
- Authors: Di Wu, Chengshuai Shi, Jing Yang, Cong Shen,
- Abstract要約: Reinforcement Learning from Human Feedbackは、大規模言語モデルの訓練後において基礎となるテクニックである。
近年の実験的研究は、RLHFの正則化剤として代替の発散の研究を始めている。
本研究は、一般の$f$-divergence正規化目的を持つオンラインRLHFの包括的な理論的枠組みを開発する。
- 参考スコア(独自算出の注目度): 19.590316589389577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become a cornerstone technique for post-training large language models. While most existing approaches rely on the reverse KL-regularization, recent empirical studies have begun exploring alternative divergences (e.g., forward KL, chi-squared) as regularizers in RLHF. However, a unified theoretical understanding of general $f$-divergence regularization remains under-explored. To fill this gap, this work develops a comprehensive theoretical framework for online RLHF with a general $f$-divergence regularized objective. Rather than treating each possible divergence function individually, we adopt a holistic perspective across the entire function class and propose two algorithms based on distinct sampling principles. The first extends the classical optimism principle with a carefully designed exploration bonus, while the second introduces a new method that exploits the sensitivity of the optimal policy to reward perturbations under $f$-divergence regularization. Theoretical analysis shows that $O(\log T)$ regret and $O(1/T)$ sub-optimality gap are achievable, establishing provable efficiency of both algorithms and, to the best of our knowledge, the first performance bounds for online RLHF under general $f$-divergence regularization.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルの訓練後の基礎となる技術となっている。
既存のほとんどのアプローチは逆KL正則化に依存しているが、最近の実験的研究はRLHFの正則化剤として代替の発散(例えばフォワードKL、チ二乗)を探求し始めている。
しかし、一般の$f$-分数正規化に関する統一的な理論的理解は、まだ未解明のままである。
このギャップを埋めるために、この研究は一般の$f$-divergence regularized objectiveを用いてオンラインRLHFの包括的な理論的枠組みを開発する。
各発散関数を個別に扱うのではなく、関数クラス全体にわたる全体論的視点を採用し、異なるサンプリング原理に基づく2つのアルゴリズムを提案する。
第1は、慎重に設計された探索ボーナスで古典的楽観主義の原則を拡張し、第2は、$f$-divergence 正規化の下で摂動を報酬する最適なポリシーの感度を利用する新しい方法を導入する。
O(\log T)$ regret and $O(1/T)$ sub-optimality gap is achievable, established provable efficiency of both algorithm and the best of our knowledge, the first performance bounds for online RLHF under general $f$-divergence regularization。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - General Exploratory Bonus for Optimistic Exploration in RLHF [14.355066862800747]
現在の定式化は、参照モデルの高確率領域に対する意図しない偏見探索である。
我々は,楽観主義の原理を確実に満足する理論的枠組みであるGEB(General Exploratory Bonus)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T04:54:59Z) - StaQ it! Growing neural networks for Policy Mirror Descent [4.672862669694739]
強化学習(RL)では、理論と実践の両方において、正規化が一般的なツールとして現れている。
我々は,最後の$M$Q関数のみをメモリに保持するPMDのようなアルゴリズムを提案し,解析する。
有限で十分大きい$M$に対して、収束アルゴリズムを導出することができ、ポリシー更新にエラーは発生しない。
論文 参考訳(メタデータ) (2025-06-16T18:00:01Z) - Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。