論文の概要: DPO Meets PPO: Reinforced Token Optimization for RLHF
- arxiv url: http://arxiv.org/abs/2404.18922v2
- Date: Sun, 21 Jul 2024 21:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 01:41:25.091929
- Title: DPO Meets PPO: Reinforced Token Optimization for RLHF
- Title(参考訳): DPOとPPO: RLHFのための強化トークン最適化
- Authors: Han Zhong, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang,
- Abstract要約: マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。
このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。
実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
- 参考スコア(独自算出の注目度): 36.97894955691627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the classical Reinforcement Learning from Human Feedback (RLHF) framework, Proximal Policy Optimization (PPO) is employed to learn from sparse, sentence-level rewards -- a challenging scenario in traditional deep reinforcement learning. Despite the great successes of PPO in the alignment of state-of-the-art closed-source large language models (LLMs), its open-source implementation is still largely sub-optimal, as widely reported by numerous research studies. To address these issues, we introduce a framework that models RLHF problems as a Markov decision process (MDP), enabling the capture of fine-grained token-wise information. Furthermore, we provide theoretical insights that demonstrate the superiority of our MDP framework over the previous sentence-level bandit formulation. Under this framework, we introduce an algorithm, dubbed as Reinforced Token Optimization (\texttt{RTO}), which learns the token-wise reward function from preference data and performs policy optimization based on this learned token-wise reward signal. Theoretically, \texttt{RTO} is proven to have the capability of finding the near-optimal policy sample-efficiently. For its practical implementation, \texttt{RTO} innovatively integrates Direct Preference Optimization (DPO) and PPO. DPO, originally derived from sparse sentence rewards, surprisingly provides us with a token-wise characterization of response quality, which is seamlessly incorporated into our subsequent PPO training stage. Extensive real-world alignment experiments verify the effectiveness of the proposed approach.
- Abstract(参考訳): 古典的なRLHF(Reinforcement Learning from Human Feedback)フレームワークでは、PPO(Proximal Policy Optimization)が、粗末な文レベルの報酬から学ぶために使用される。
最先端のクローズドソース言語モデル(LLM)のアライメントにおいてPPOは大きな成功を収めたが、多くの研究で広く報告されているように、そのオープンソース実装はいまだに準最適である。
これらの問題に対処するために,RLHF問題をマルコフ決定プロセス(MDP)としてモデル化するフレームワークを導入する。
さらに,従来の文レベルの帯域幅の定式化よりもMDPフレームワークの方が優れていることを示す理論的知見を提供する。
この枠組みでは, 優先データからトークンワイド報酬関数を学習し, この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うReinforced Token Optimization (\texttt{RTO}) と呼ばれるアルゴリズムを導入する。
理論的には、‘texttt{RTO} は、ほぼ最適のポリシーをサンプリング効率良く見つける能力を持つことが証明されている。
実践的な実装として、 \texttt{RTO} は、DPO(Direct Preference Optimization)とPPO(PPO)を革新的に統合している。
DPOは、もともとスパース文の報酬から派生したもので、驚くべきことに、反応の質をトークン的に評価し、その後のPPOトレーニングステージにシームレスに組み込まれています。
大規模な実世界のアライメント実験により,提案手法の有効性が検証された。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
直接選好最適化(DPO)は代替手法として登場している。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。