論文の概要: Pretraining Language Models with Human Preferences
- arxiv url: http://arxiv.org/abs/2302.08582v2
- Date: Wed, 14 Jun 2023 13:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 02:04:27.202837
- Title: Pretraining Language Models with Human Preferences
- Title(参考訳): 人選好による言語モデルの事前学習
- Authors: Tomasz Korbak and Kejian Shi and Angelica Chen and Rasika Bhalerao and
Christopher L. Buckley and Jason Phang and Samuel R. Bowman and Ethan Perez
- Abstract要約: 言語モデル(LM)はインターネットテキストを模倣するために事前訓練されている。
そこで本研究では,人間の嗜好に沿ったテキストを生成する方法として,LMの事前学習のための代替目的について検討する。
- 参考スコア(独自算出の注目度): 21.724817280998696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are pretrained to imitate internet text, including
content that would violate human preferences if generated by an LM: falsehoods,
offensive comments, personally identifiable information, low-quality or buggy
code, and more. Here, we explore alternative objectives for pretraining LMs in
a way that also guides them to generate text aligned with human preferences. We
benchmark five objectives for pretraining with human feedback across three
tasks and study how they affect the trade-off between alignment and
capabilities of pretrained LMs. We find a Pareto-optimal and simple approach
among those we explored: conditional training, or learning distribution over
tokens conditional on their human preference scores given by a reward model.
Conditional training reduces the rate of undesirable content by up to an order
of magnitude, both when generating without a prompt and with an
adversarially-chosen prompt. Moreover, conditional training maintains the
downstream task performance of standard LM pretraining, both before and after
task-specific finetuning. Pretraining with human feedback results in much
better preference satisfaction than standard LM pretraining followed by
finetuning with feedback, i.e., learning and then unlearning undesirable
behavior. Our results suggest that we should move beyond imitation learning
when pretraining LMs and incorporate human preferences from the start of
training.
- Abstract(参考訳): 言語モデル(LM)はインターネットテキストを模倣するために事前訓練されており、LMが生成したコンテンツには、偽造、攻撃的なコメント、個人識別可能な情報、品質の低いコード、バギーコードなどが含まれる。
本稿では,人間の嗜好に沿ったテキストを生成する方法として,LMの事前学習のための代替目的を検討する。
我々は,3つのタスクにまたがるフィードバックによる事前学習の5つの目標をベンチマークし,それらが事前訓練されたLMのアライメントと能力のトレードオフに与える影響について検討する。
そこで我々は、条件付きトレーニングや、報酬モデルによって与えられる人間の嗜好スコアに基づくトークン上の分布の学習という、パレート最適で簡単なアプローチを見出した。
条件付きトレーニングは、プロンプトを使わずに生成する時と逆行するプロンプトを伴って、望ましくないコンテンツの速度を最大で桁違いに減少させる。
さらに条件付きトレーニングは、タスク固有の微調整前後において、標準lmプリトレーニングのダウンストリームタスクパフォーマンスを維持する。
人間のフィードバックによる事前トレーニングは、標準のlmプリトレーニングよりもずっと優れた好み満足度をもたらし、続いてフィードバックによる微調整、すなわち学習、そして望ましくない行動を学習する。
この結果から,LMの事前学習では模倣学習を超越し,訓練開始から人間の嗜好を取り入れるべきであることが示唆された。
関連論文リスト
- Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Aligning language models with human preferences [5.0994393083677]
大量のテキストデータに基づいて訓練された言語モデル(LM)は高度なスキルを習得することができる。
また、人間の嗜好に反する行動を示す。
LMを人間の好みに合わせるためのいくつかのアプローチを検討します。
論文 参考訳(メタデータ) (2024-04-18T12:55:18Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z) - Meet in the Middle: A New Pre-training Paradigm [41.52858444519968]
ほとんどの言語モデル(LM)は、自己回帰的な左から右の方法で訓練され、適用されます。
本稿では,トレーニングデータ効率を協調的に向上させる技術を備えた,新たな事前学習パラダイムを提案する。
本稿では,プログラムモデルと自然言語モデルの両方に関する広範な実験により,事前学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T17:17:11Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。