論文の概要: Sharp Analysis for KL-Regularized Contextual Bandits and RLHF
- arxiv url: http://arxiv.org/abs/2411.04625v1
- Date: Thu, 07 Nov 2024 11:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:07.767810
- Title: Sharp Analysis for KL-Regularized Contextual Bandits and RLHF
- Title(参考訳): KL規則化コンテキスト帯域とRLHFのシャープ解析
- Authors: Heyang Zhao, Chenlu Ye, Quanquan Gu, Tong Zhang,
- Abstract要約: Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
- 参考スコア(独自算出の注目度): 52.519416266840814
- License:
- Abstract: Reverse-Kullback-Leibler (KL) regularization has emerged to be a predominant technique used to enhance policy optimization in reinforcement learning (RL) and reinforcement learning from human feedback (RLHF), which forces the learned policy to stay close to a reference policy. While the effectiveness and necessity of KL-regularization have been empirically demonstrated in various practical scenarios, current theoretical analysis of KL-regularized RLHF still obtains the same $\mathcal{O}(1 / \epsilon^2)$ sample complexity as problems without KL-regularization. To understand the fundamental distinction between policy learning objectives with KL-regularization and ones without KL-regularization, we are the first to theoretically demonstrate the power of KL-regularization by providing a sharp analysis for KL-regularized contextual bandits and RLHF, revealing an $\mathcal{O}(1 / \epsilon)$ sample complexity when $\epsilon$ is sufficiently small. We further explore the role of data coverage in contextual bandits and RLHF. While the coverage assumption is commonly employed in offline RLHF to link the samples from the reference policy to the optimal policy, often at the cost of a multiplicative dependence on the coverage coefficient, its impact on the sample complexity of online RLHF remains unclear. Previous theoretical analyses of online RLHF typically require explicit exploration and additional structural assumptions on the reward function class. In contrast, we show that with sufficient coverage from the reference policy, a simple two-stage mixed sampling strategy can achieve a sample complexity with only an additive dependence on the coverage coefficient. Our results provide a comprehensive understanding of the roles of KL-regularization and data coverage in RLHF, shedding light on the design of more efficient RLHF algorithms.
- Abstract(参考訳): Reverse-Kullback-Leibler (KL) 正則化は、強化学習(RL)と人間フィードバックからの強化学習(RLHF)におけるポリシー最適化の強化に利用され、学習方針を基準方針に近づけるようにしている。
KL-正則化の有効性と必要性は様々な実例で実証されているが、KL-正則化RLHFの現在の理論的解析では、KL-正則化のない問題として、サンプルの複雑さが同じ$\mathcal{O}(1 / \epsilon^2)である。
KL-正則化とKL-正則化のない政策学習目標との違いを理解するために、KL-正則化文脈包帯とRLHFの鋭い解析を行い、$\mathcal{O}(1 / \epsilon)$サンプル複雑さを$\epsilon$が十分小さいときに明らかにすることによって、KL-正則化のパワーを理論的に証明した最初の人物である。
さらに、文脈的包帯とRLHFにおけるデータカバレッジの役割について検討する。
カバレッジの仮定は、通常、オフラインのRLHFにおいて、参照ポリシーからのサンプルを最適ポリシーにリンクするために使用されるが、しばしばカバレッジ係数への乗法的依存のコストで、オンラインRLHFのサンプル複雑性への影響は不明確である。
オンラインRLHFの以前の理論的解析は、典型的には、報酬関数クラスに関する明示的な探索と追加的な構造的仮定を必要とする。
対照的に、参照ポリシーからの十分なカバレッジで、単純な2段階混合サンプリング戦略は、カバレッジ係数に付加的な依存しか持たずに、サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
関連論文リスト
- UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。
この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。
RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文 参考訳(メタデータ) (2024-08-27T18:04:07Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。