論文の概要: Training Language Models with Language Feedback at Scale
- arxiv url: http://arxiv.org/abs/2303.16755v3
- Date: Thu, 22 Feb 2024 22:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:36:49.127791
- Title: Training Language Models with Language Feedback at Scale
- Title(参考訳): 大規模言語フィードバックによる言語モデルの訓練
- Authors: J\'er\'emy Scheurer, Jon Ander Campos, Tomasz Korbak, Jun Shern Chan,
Angelica Chen, Kyunghyun Cho, Ethan Perez
- Abstract要約: 我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
- 参考スコア(独自算出の注目度): 50.70091340506957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models often generate outputs that are not in line with
human preferences, such as harmful text or factually incorrect summaries.
Recent work approaches the above issues by learning from a simple form of human
feedback: comparisons between pairs of model-generated outputs. However,
comparison feedback only conveys limited information about human preferences.
In this paper, we introduce Imitation learning from Language Feedback (ILF), a
new approach that utilizes more informative language feedback. ILF consists of
three steps that are applied iteratively: first, conditioning the language
model on the input, an initial LM output, and feedback to generate refinements.
Second, selecting the refinement incorporating the most feedback. Third,
finetuning the language model to maximize the likelihood of the chosen
refinement given the input. We show theoretically that ILF can be viewed as
Bayesian Inference, similar to Reinforcement Learning from human feedback. We
evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic
summarization task. Our experiments demonstrate that large language models
accurately incorporate feedback and that finetuning with ILF scales well with
the dataset size, even outperforming finetuning on human summaries. Learning
from both language and comparison feedback outperforms learning from each
alone, achieving human-level summarization performance.
- Abstract(参考訳): 事前訓練された言語モデルは、有害なテキストや事実的に誤った要約など、人間の好みと一致しない出力を生成することが多い。
最近の研究は、人間のフィードバックの単純な形式から学習することで、上記の問題にアプローチしている。
しかし、比較フィードバックは人間の好みに関する限られた情報しか伝達しない。
本稿では,より情報的な言語フィードバックを利用する新しいアプローチであるImitation Learning from Language Feedback (ILF)を紹介する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
次に、最もフィードバックを取り入れた改善を選択する。
第三に、入力によって選択された洗練の可能性を最大化するために言語モデルを微調整する。
理論的には、ILFは人間のフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
ilfの有効性を注意深く制御した玩具タスクと現実的な要約タスクで評価する。
実験では,大規模言語モデルがフィードバックを正確に組み込んでおり,iffによる微調整はデータセットサイズとよく一致し,人間のサマリーの微調整よりも優れています。
言語と比較フィードバックの両方から学ぶことは、個人で学ぶことよりも優れ、人間レベルの要約性能を達成する。
関連論文リスト
- LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。
本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。
本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文 参考訳(メタデータ) (2024-08-25T18:47:55Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。