論文の概要: RRHF: Rank Responses to Align Language Models with Human Feedback
without tears
- arxiv url: http://arxiv.org/abs/2304.05302v3
- Date: Sat, 7 Oct 2023 07:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 13:34:02.334983
- Title: RRHF: Rank Responses to Align Language Models with Human Feedback
without tears
- Title(参考訳): RRHF:涙のない人間のフィードバックを伴う言語モデルに対するランク応答
- Authors: Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei
Huang
- Abstract要約: InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
- 参考スコア(独自算出の注目度): 69.68672043223249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) facilitates the alignment
of large language models with human preferences, significantly enhancing the
quality of interactions between humans and models. InstructGPT implements RLHF
through several stages, including Supervised Fine-Tuning (SFT), reward model
training, and Proximal Policy Optimization (PPO). However, PPO is sensitive to
hyperparameters and requires multiple models in its standard implementation,
making it hard to train and scale up to larger parameter counts. In contrast,
we propose a novel learning paradigm called RRHF, which scores sampled
responses from different sources via a logarithm of conditional probabilities
and learns to align these probabilities with human preferences through ranking
loss. RRHF can leverage sampled responses from various sources including the
model responses from itself, other large language model responses, and human
expert responses to learn to rank them. RRHF only needs 1 to 2 models during
tuning and can efficiently align language models with human preferences
robustly without complex hyperparameter tuning. Additionally, RRHF can be
considered an extension of SFT and reward model training while being simpler
than PPO in terms of coding, model counts, and hyperparameters. We evaluate
RRHF on the Helpful and Harmless dataset, demonstrating comparable alignment
performance with PPO by reward model score and human labeling. Extensive
experiments show that the performance of RRHF is highly related to sampling
quality which suggests RRHF is a best-of-n learner. Codes available at
https://github.com/GanjinZero/RRHF.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の嗜好の一致を促進し、人間とモデルの相互作用の質を大幅に向上させる。
InstructGPTは、Supervised Fine-Tuning (SFT)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
しかしながら、PPOはハイパーパラメータに敏感であり、標準実装では複数のモデルを必要とするため、より大きなパラメータ数までトレーニングとスケールアップが困難である。
これとは対照的に,条件付き確率の対数を通じて異なるソースからサンプルされた応答をスコア付けし,これらの確率をランキングの損失を通じて人間の好みに合わせることを学ぶ,rrhfと呼ばれる新しい学習パラダイムを提案する。
RRHFは、モデル応答自体からのサンプル応答や、他の大きな言語モデル応答、人間の専門家応答など、さまざまなソースからのサンプル応答を活用できる。
RRHFは、チューニング中に1から2つのモデルしか必要とせず、複雑なハイパーパラメータチューニングなしで、言語モデルと人間の好みをしっかりと調整することができる。
さらに、RRHFは、コーディング、モデルカウント、ハイパーパラメータの点でPPOよりも単純でありながら、SFTおよび報酬モデルトレーニングの拡張と見なすことができる。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
実験の結果,RRHFの性能はサンプリング品質と高い相関があることが判明した。
コードはhttps://github.com/ganjinzero/rrhfで入手できる。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - SLiC-HF: Sequence Likelihood Calibration with Human Feedback [35.74135968442311]
最近導入されたSequence Likelihood(SLiC)は、人間の嗜好から効果的に学習できることを示す。
TL;DR要約タスクの実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-17T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。