Fugu-MT 論文翻訳(概要): Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint

論文の概要: Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint

arxiv url: http://arxiv.org/abs/2312.11456v3
Date: Tue, 20 Feb 2024 06:14:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 20:06:09.581826
Title: Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint
Title（参考訳）: 人間のフィードバックからの反復的選好学習:KL制約下でのRLHFのブリッジ理論と実践
Authors: Wei Xiong, Hanze Dong, Chenlu Ye, Ziqi Wang, Han Zhong, Heng Ji, Nan Jiang, Tong Zhang
Abstract要約: 本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程の理論的枠組みについて検討する。我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 59.18441633176669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies the theoretical framework of the alignment process of generative models with Reinforcement Learning from Human Feedback (RLHF). We consider a standard mathematical formulation, the reverse-KL regularized contextual bandit for RLHF. Despite its widespread practical application, a rigorous theoretical analysis of this formulation remains open. We investigate its behavior in three distinct settings -- offline, online, and hybrid -- and propose efficient algorithms with finite-sample theoretical guarantees. Moving towards practical applications, our framework, with a robust approximation of the information-theoretical policy improvement oracle, naturally gives rise to several novel RLHF algorithms. This includes an iterative version of the Direct Preference Optimization (DPO) algorithm for online settings, and a multi-step rejection sampling strategy for offline scenarios. Our empirical evaluations on real-world alignment experiment of large language model demonstrate that these proposed methods significantly surpass existing strong baselines, such as DPO and Rejection Sampling Optimization (RSO), showcasing the connections between solid theoretical foundations and their powerful practical implementations.
Abstract（参考訳）: 本稿では,RLHF(Reinforcement Learning from Human Feedback)を用いた生成モデルのアライメント過程の理論的枠組みについて考察する。我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。広く応用されているにもかかわらず、この定式化の厳密な理論解析はいまだに開かれていない。我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。私たちのフレームワークは、oracleの情報理論的なポリシー改善を堅牢に近似しており、自然にいくつかの新しいrlhfアルゴリズムを生み出します。これには、オンライン設定のためのdirect preference optimization (dpo)アルゴリズムの反復バージョン、オフラインシナリオのためのマルチステップ拒否サンプリング戦略が含まれる。大規模言語モデルの実世界アライメント実験における経験的評価により,提案手法が既存の強固なベースライン,例えばdpoやrso(rejection sampling optimization)を大幅に上回っており,強固な理論的基礎と強力な実践的実装との関係が示されている。

関連論文リスト

Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。 ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文参考訳（メタデータ） (2025-12-11T12:51:21Z)
Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。 DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文参考訳（メタデータ） (2025-10-16T02:56:58Z)
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文参考訳（メタデータ） (2025-09-29T02:34:54Z)
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。 APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文参考訳（メタデータ） (2025-03-07T10:35:01Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。 PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文参考訳（メタデータ） (2024-07-25T10:02:11Z)
SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-21T18:05:35Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。 PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文参考訳（メタデータ） (2024-02-16T19:35:58Z)
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文参考訳（メタデータ） (2024-01-06T20:52:04Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Revisiting the Linear-Programming Framework for Offline RL with General Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文参考訳（メタデータ） (2022-12-28T15:28:12Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。