論文の概要: Direct Preference Optimization: Your Language Model is Secretly a Reward
Model
- arxiv url: http://arxiv.org/abs/2305.18290v2
- Date: Wed, 13 Dec 2023 18:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:52:11.186593
- Title: Direct Preference Optimization: Your Language Model is Secretly a Reward
Model
- Title(参考訳): 直接参照最適化:あなたの言語モデルは秘密裏にリワードモデルである
- Authors: Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon,
Christopher D. Manning, Chelsea Finn
- Abstract要約: 本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 126.78737228677025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large-scale unsupervised language models (LMs) learn broad world
knowledge and some reasoning skills, achieving precise control of their
behavior is difficult due to the completely unsupervised nature of their
training. Existing methods for gaining such steerability collect human labels
of the relative quality of model generations and fine-tune the unsupervised LM
to align with these preferences, often with reinforcement learning from human
feedback (RLHF). However, RLHF is a complex and often unstable procedure, first
fitting a reward model that reflects the human preferences, and then
fine-tuning the large unsupervised LM using reinforcement learning to maximize
this estimated reward without drifting too far from the original model. In this
paper we introduce a new parameterization of the reward model in RLHF that
enables extraction of the corresponding optimal policy in closed form, allowing
us to solve the standard RLHF problem with only a simple classification loss.
The resulting algorithm, which we call Direct Preference Optimization (DPO), is
stable, performant, and computationally lightweight, eliminating the need for
sampling from the LM during fine-tuning or performing significant
hyperparameter tuning. Our experiments show that DPO can fine-tune LMs to align
with human preferences as well as or better than existing methods. Notably,
fine-tuning with DPO exceeds PPO-based RLHF in ability to control sentiment of
generations, and matches or improves response quality in summarization and
single-turn dialogue while being substantially simpler to implement and train.
- Abstract(参考訳): 大規模な教師なし言語モデル(LM)は、幅広い世界の知識とある程度の推論スキルを学習するが、教師なしの訓練の性質が全くないため、その行動の正確な制御は困難である。
このようなステアビリティを得るための既存の方法は、モデル世代における相対的な品質の人間ラベルを収集し、教師なしLMを微調整してこれらの好みに合わせる。
しかし、rlhfは複雑でしばしば不安定な手順であり、まず人間の好みを反映した報酬モデルに適合し、その後強化学習を用いて大きな教師なしlmを微調整し、元のモデルから遠ざかることなくこの推定報酬を最大化する。
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。これにより,対応する最適ポリシーをクローズド形式で抽出し,単純な分類損失のみで標準RLHF問題を解くことができる。
私たちがDPO(Direct Preference Optimization)と呼ぶこのアルゴリズムは安定的で、性能が高く、計算量も軽量であり、微調整や重要なハイパーパラメータチューニングを行う際に、LMからサンプリングする必要がなくなる。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
特に、DPOによる微調整は、世代ごとの感情を制御できるPPOベースのRLHFを超え、要約やシングルターン対話における応答品質にマッチまたは改善すると同時に、実装とトレーニングが大幅に簡単になる。
関連論文リスト
- Back to Basics: Revisiting REINFORCE Style Optimization for Learning
from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。
近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。
PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:52:34Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization
Method for Alignment of Large Language Models [8.134117126995694]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。