論文の概要: Back to Basics: Revisiting REINFORCE Style Optimization for Learning
from Human Feedback in LLMs
- arxiv url: http://arxiv.org/abs/2402.14740v2
- Date: Mon, 26 Feb 2024 18:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:20:18.096884
- Title: Back to Basics: Revisiting REINFORCE Style Optimization for Learning
from Human Feedback in LLMs
- Title(参考訳): Back to Basics: LLMにおける人間のフィードバックから学ぶためにReINFORCEスタイルの最適化を再考
- Authors: Arash Ahmadian, Chris Cremer, Matthias Gall\'e, Marzieh Fadaee, Julia
Kreutzer, Olivier Pietquin, Ahmet \"Ust\"un, Sara Hooker
- Abstract要約: ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。
近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。
PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 29.505270680223003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI alignment in the shape of Reinforcement Learning from Human Feedback
(RLHF) is increasingly treated as a crucial ingredient for high performance
large language models. Proximal Policy Optimization (PPO) has been positioned
by recent literature as the canonical method for the RL part of RLHF. However,
it involves both high computational cost and sensitive hyperparameter tuning.
We posit that most of the motivational principles that led to the development
of PPO are less of a practical concern in RLHF and advocate for a less
computationally expensive method that preserves and even increases performance.
We revisit the formulation of alignment from human preferences in the context
of RL. Keeping simplicity as a guiding principle, we show that many components
of PPO are unnecessary in an RLHF context and that far simpler REINFORCE-style
optimization variants outperform both PPO and newly proposed "RL-free" methods
such as DPO and RAFT. Our work suggests that careful adaptation to LLMs
alignment characteristics enables benefiting from online RL optimization at low
cost.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)の形をしたAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われる。
近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。
しかし、高い計算コストと敏感なハイパーパラメータチューニングの両方が伴う。
PPOの発展に繋がるモチベーションの原則のほとんどは、RLHFにおいて実践的な関心事ではなく、性能を保ち、さらに向上させる計算コストの低い手法を提唱している。
RLの文脈において、人間の嗜好からアライメントの定式化を再考する。
RLHF の文脈では PPO の多くのコンポーネントは不要であり、より単純なREINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
llmsアライメント特性に対する注意深い適応は、低コストでオンラインrl最適化の利点を享受できることが示唆された。
関連論文リスト
- Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data [25.844968873581244]
Inverse-Q*はトークンレベルの強化学習を最適化することで従来のRL手法を超越する革新的なフレームワークである。
この結果から,Inverse-Q*は従来のRLHFアプローチに代わる実用的で堅牢な代替手段であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:43:32Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。