論文の概要: Training language models to follow instructions with human feedback
- arxiv url: http://arxiv.org/abs/2203.02155v1
- Date: Fri, 4 Mar 2022 07:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 13:53:51.192133
- Title: Training language models to follow instructions with human feedback
- Title(参考訳): 人間のフィードバックで指示に従うための言語モデル
- Authors: Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright,
Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John
Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda
Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
- Abstract要約: 本稿では,人間のフィードバックを微調整することで,言語モデルとユーザ意図との整合性を示す。
インストラクションGPTモデルは、有害な出力生成の真理性の改善と削減を示す。
- 参考スコア(独自算出の注目度): 29.590666996229206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making language models bigger does not inherently make them better at
following a user's intent. For example, large language models can generate
outputs that are untruthful, toxic, or simply not helpful to the user. In other
words, these models are not aligned with their users. In this paper, we show an
avenue for aligning language models with user intent on a wide range of tasks
by fine-tuning with human feedback. Starting with a set of labeler-written
prompts and prompts submitted through the OpenAI API, we collect a dataset of
labeler demonstrations of the desired model behavior, which we use to fine-tune
GPT-3 using supervised learning. We then collect a dataset of rankings of model
outputs, which we use to further fine-tune this supervised model using
reinforcement learning from human feedback. We call the resulting models
InstructGPT. In human evaluations on our prompt distribution, outputs from the
1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3,
despite having 100x fewer parameters. Moreover, InstructGPT models show
improvements in truthfulness and reductions in toxic output generation while
having minimal performance regressions on public NLP datasets. Even though
InstructGPT still makes simple mistakes, our results show that fine-tuning with
human feedback is a promising direction for aligning language models with human
intent.
- Abstract(参考訳): 言語モデルをより大きくすることは、本来、ユーザの意図に従うことを良くするものではない。
例えば、大きな言語モデルは、非現実的で有毒、あるいは単にユーザにとって役に立たないアウトプットを生成することができる。
言い換えれば、これらのモデルはユーザーと一致していない。
本稿では,人間のフィードバックを微調整することで,幅広いタスクに対して言語モデルとユーザの意図を連携させる方法を示す。
OpenAI APIを通じてラベラで書かれたプロンプトとプロンプトのセットから始め、所望のモデル動作のラベラデモのデータセットを収集し、教師付き学習を用いてGPT-3を微調整する。
次に、モデル出力のランキングのデータセットを収集し、人間のフィードバックからの強化学習を用いて、この教師付きモデルをさらに微調整する。
結果のモデルをInstructGPTと呼びます。
本手法では,1.3Bパラメータからの出力が175B GPT-3の出力より好まれるが,パラメータは100倍少ない。
さらに、インストラクトGPTモデルは、パブリックなNLPデータセット上での最小性能のレグレッションを保ちながら、有毒な出力生成の真偽と低減の改善を示す。
InstructGPTは依然として単純な誤りを犯すが、人間のフィードバックによる微調整は言語モデルと人間の意図を一致させる上で有望な方向であることを示す。
関連論文リスト
- Improving Classification Performance With Human Feedback: Label a few,
we label the rest [2.7386128680964408]
本稿では,連続フィードバックループがモデルをどのように洗練し,精度,リコール,精度を向上させるかを理解することに焦点を当てる。
このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を上回ります。
論文 参考訳(メタデータ) (2024-01-17T19:13:05Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。