論文の概要: SuperHF: Supervised Iterative Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2310.16763v1
- Date: Wed, 25 Oct 2023 16:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:31:19.114479
- Title: SuperHF: Supervised Iterative Learning from Human Feedback
- Title(参考訳): SuperHF: 人間のフィードバックによる反復学習
- Authors: Gabriel Mukobi, Peter Chatain, Su Fong, Robert Windesheim, Gitta
Kutyniok, Kush Bhatia, Silas Alberti
- Abstract要約: 我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
- 参考スコア(独自算出の注目度): 20.22920163075946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models demonstrate remarkable capabilities, they often
present challenges in terms of safety, alignment with human values, and
stability during training. Here, we focus on two prevalent methods used to
align these models, Supervised Fine-Tuning (SFT) and Reinforcement Learning
from Human Feedback (RLHF). SFT is simple and robust, powering a host of
open-source models, while RLHF is a more sophisticated method used in top-tier
models like ChatGPT but also suffers from instability and susceptibility to
reward hacking. We propose a novel approach, Supervised Iterative Learning from
Human Feedback (SuperHF), which seeks to leverage the strengths of both
methods. Our hypothesis is two-fold: that the reward model used in RLHF is
critical for efficient data use and model generalization and that the use of
Proximal Policy Optimization (PPO) in RLHF may not be necessary and could
contribute to instability issues. SuperHF replaces PPO with a simple supervised
loss and a Kullback-Leibler (KL) divergence prior. It creates its own training
data by repeatedly sampling a batch of model outputs and filtering them through
the reward model in an online learning regime. We then break down the reward
optimization problem into three components: robustly optimizing the training
rewards themselves, preventing reward hacking-exploitation of the reward model
that degrades model performance-as measured by a novel METEOR similarity
metric, and maintaining good performance on downstream evaluations. Our
experimental results show SuperHF exceeds PPO-based RLHF on the training
objective, easily and favorably trades off high reward with low reward hacking,
improves downstream calibration, and performs the same on our GPT-4 based
qualitative evaluation scheme all the while being significantly simpler to
implement, highlighting SuperHF's potential as a competitive language model
alignment technique.
- Abstract(参考訳): 大きな言語モデルは目覚ましい能力を示すが、安全性、人的価値との整合性、トレーニング中の安定性といった面での課題をしばしば提示する。
本稿では,これらのモデルを調整するために用いられる2つの一般的な手法であるSupervised Fine-Tuning(SFT)とReinforcement Learning from Human Feedback(RLHF)に焦点を当てる。
SFTはシンプルで堅牢で、多数のオープンソースモデルを動かす一方、RLHFはChatGPTのようなトップ層モデルで使用されるより洗練された手法であるが、ハッキングに対する不安定性と感受性にも悩まされている。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
我々の仮説は、RLHFで使用される報酬モデルが効率的なデータ利用およびモデル一般化に不可欠であり、RLHFにおけるPPOの使用は不要であり、不安定性問題に寄与する可能性があるというものである。
SuperHFはPPOを単純な教師付き損失とKL(Kullback-Leibler)の分岐に置き換える。
オンライン学習システムでは、モデルのアウトプットを繰り返しサンプリングし、報酬モデルを通じてフィルタリングすることで、独自のトレーニングデータを生成する。
次に、報酬最適化問題を、トレーニング報酬自体の堅牢な最適化、新しいMETEOR類似度測定値によって測定されたモデル性能を劣化させる報酬モデルの報酬ハッキングの防止、下流評価における優れたパフォーマンスの維持の3つのコンポーネントに分割する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬と低報酬のハッキングとのトレードオフを容易かつ良好に行い,下流キャリブレーションを改善し,GPT-4 ベースの定性評価スキームにおいて,実装が極めて簡単でありながら,競争言語モデルアライメント技術としての SuperHF の可能性を強調した。
関連論文リスト
- Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - The History and Risks of Reinforcement Learning and Human Feedback [0.16843915833103415]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルをより使いやすく、より効果的にするための強力なテクニックとして登場した。
RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。
RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。
論文 参考訳(メタデータ) (2023-10-20T15:45:16Z) - Stabilizing RLHF through Advantage Model and Selective Rehearsal [57.504894664689]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、これらのモデルを人間の価値観や好みに合わせることは依然として大きな課題である。
この課題は、報酬のハッキングや破滅的な忘れなど、さまざまな不安定さによって特徴づけられる。
1) 報酬ハッキング防止のために, スコアを直接モデル化し, タスク間のスコア分布を規制するアドバンテージモデル, 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで, 悲惨な忘れを緩和する選択リハーサルを提案する。
論文 参考訳(メタデータ) (2023-09-18T23:06:32Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。