論文の概要: Secrets of RLHF in Large Language Models Part I: PPO
- arxiv url: http://arxiv.org/abs/2307.04964v1
- Date: Tue, 11 Jul 2023 01:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 16:44:03.115469
- Title: Secrets of RLHF in Large Language Models Part I: PPO
- Title(参考訳): 大規模言語モデルにおけるRLHFの秘密(1):PPO
- Authors: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu,
Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu,
Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue
Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang,
Xipeng Qiu, Xuanjing Huang
- Abstract要約: 大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
現在の技術ルートには、人間の嗜好を測定するための textbfreward モデル、ポリシーモデルの出力を最適化する textbf Proximal Policy Optimization (PPO)、ステップバイステップの推論能力を改善する textbfprocess 監督が含まれる。
しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの大規模な試行とエラーコストが相まって、AI研究者が技術的アライメントの開発を動機付ける大きな障壁がある。
- 参考スコア(独自算出の注目度): 81.01936993929127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have formulated a blueprint for the advancement
of artificial general intelligence. Its primary objective is to function as a
human-centric (helpful, honest, and harmless) assistant. Alignment with humans
assumes paramount significance, and reinforcement learning with human feedback
(RLHF) emerges as the pivotal technological paradigm underpinning this pursuit.
Current technical routes usually include \textbf{reward models} to measure
human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize
policy model outputs, and \textbf{process supervision} to improve step-by-step
reasoning capabilities. However, due to the challenges of reward design,
environment interaction, and agent training, coupled with huge trial and error
cost of large language models, there is a significant barrier for AI
researchers to motivate the development of technical alignment and safe landing
of LLMs. The stable training of RLHF has still been a puzzle. In the first
report, we dissect the framework of RLHF, re-evaluate the inner workings of
PPO, and explore how the parts comprising PPO algorithms impact policy agent
training. We identify policy constraints being the key factor for the effective
implementation of the PPO algorithm. Therefore, we explore the PPO-max, an
advanced version of PPO algorithm, to efficiently improve the training
stability of the policy model. Based on our main results, we perform a
comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT.
The absence of open-source implementations has posed significant challenges to
the investigation of LLMs alignment. Therefore, we are eager to release
technical reports, reward models and PPO codes
- Abstract(参考訳): 大規模言語モデル(llm)は、人工知能の進歩のための青写真を形成する。
主な目的は、人間中心(人間中心、正直で無害な)アシスタントとして機能することである。
人間とのアライメントが最重要視され、人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
現在の技術ルートには、人間の好みを測定するための \textbf{reward models}、ポリシーモデルの出力を最適化する \textbf{proximal policy optimization} (ppo)、ステップバイステップの推論能力を改善するための \textbf{process supervisor}が含まれる。
しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの巨大な試行とエラーコストが相まって、ai研究者が技術的アライメントとllmの安全なランディングの開発を動機付けるための大きな障壁がある。
RLHFの安定した訓練は未だにパズルである。
第1報では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
PPOアルゴリズムの効果的な実装の鍵となる要因は政策制約である。
そこで我々は,PPOアルゴリズムの高度なバージョンであるPPO-maxを探索し,政策モデルのトレーニング安定性を効率的に向上する。
本研究の主な成果に基づき,SFTモデルやChatGPTと比較して,RLHF能力の包括的解析を行う。
オープンソース実装の欠如は、LCMのアライメントの調査に重大な課題をもたらした。
したがって、私たちは技術レポート、報酬モデル、PPOコードをリリースすることを熱望しています。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。
このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。
実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。