論文の概要: Direct Preference Optimization: Your Language Model is Secretly a Reward
Model
- arxiv url: http://arxiv.org/abs/2305.18290v1
- Date: Mon, 29 May 2023 17:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:33:42.448176
- Title: Direct Preference Optimization: Your Language Model is Secretly a Reward
Model
- Title(参考訳): 直接参照最適化:あなたの言語モデルは秘密裏にリワードモデルである
- Authors: Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon,
Christopher D. Manning, Chelsea Finn
- Abstract要約: 我々は、人間の好みに合わせて教師なし言語モデル(LM)を微調整するアルゴリズムを開発した。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 140.39704925362258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large-scale unsupervised language models (LMs) learn broad world
knowledge and some reasoning skills, achieving precise control of their
behavior is difficult due to the completely unsupervised nature of their
training. Existing methods for gaining such steerability collect human labels
of the relative quality of model generations and fine-tune the unsupervised LM
to align with these preferences, often with reinforcement learning from human
feedback (RLHF). However, RLHF is a complex and often unstable procedure, first
fitting a reward model that reflects the human preferences, and then
fine-tuning the large unsupervised LM using reinforcement learning to maximize
this estimated reward without drifting too far from the original model. In this
paper, we leverage a mapping between reward functions and optimal policies to
show that this constrained reward maximization problem can be optimized exactly
with a single stage of policy training, essentially solving a classification
problem on the human preference data. The resulting algorithm, which we call
Direct Preference Optimization (DPO), is stable, performant and computationally
lightweight, eliminating the need for fitting a reward model, sampling from the
LM during fine-tuning, or performing significant hyperparameter tuning. Our
experiments show that DPO can fine-tune LMs to align with human preferences as
well as or better than existing methods. Notably, fine-tuning with DPO exceeds
RLHF's ability to control sentiment of generations and improves response
quality in summarization and single-turn dialogue while being substantially
simpler to implement and train.
- Abstract(参考訳): 大規模な教師なし言語モデル(LM)は、幅広い世界の知識とある程度の推論スキルを学習するが、教師なしの訓練の性質が全くないため、その行動の正確な制御は困難である。
このようなステアビリティを得るための既存の方法は、モデル世代における相対的な品質の人間ラベルを収集し、教師なしLMを微調整してこれらの好みに合わせる。
しかし、rlhfは複雑でしばしば不安定な手順であり、まず人間の好みを反映した報酬モデルに適合し、その後強化学習を用いて大きな教師なしlmを微調整し、元のモデルから遠ざかることなくこの推定報酬を最大化する。
本稿では、報酬関数と最適ポリシーのマッピングを利用して、この制約付き報酬最大化問題を、基本的には人間の嗜好データに対する分類問題を解き、単一の段階の政策訓練で正確に最適化できることを示す。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、パフォーマンスが高く、計算量も軽量であり、報酬モデルへの適合、微調整中のLMからのサンプリング、あるいは重要なハイパーパラメータチューニングを行う必要がなくなる。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
特に、DPOによる微調整は、RLHFの世代感情制御能力を超え、要約やシングルターン対話における応答品質を向上させるとともに、実装とトレーニングが大幅に簡単になる。
関連論文リスト
- Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。
大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。
本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。
RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文 参考訳(メタデータ) (2024-03-28T14:15:10Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。