論文の概要: Training Language Models with Natural Language Feedback
- arxiv url: http://arxiv.org/abs/2204.14146v2
- Date: Mon, 2 May 2022 17:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 11:06:09.536715
- Title: Training Language Models with Natural Language Feedback
- Title(参考訳): 自然言語フィードバックによる言語モデルの訓練
- Authors: J\'er\'emy Scheurer, Jon Ander Campos, Jun Shern Chan, Angelica Chen,
Kyunghyun Cho, Ethan Perez
- Abstract要約: 3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
- 参考スコア(独自算出の注目度): 51.36137482891037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models often do not perform tasks in ways that are in
line with our preferences, e.g., generating offensive text or factually
incorrect summaries. Recent work approaches the above issue by learning from a
simple form of human evaluation: comparisons between pairs of model-generated
task outputs. Comparison feedback conveys limited information about human
preferences per human evaluation. Here, we propose to learn from natural
language feedback, which conveys more information per human evaluation. We
learn from language feedback on model outputs using a three-step learning
algorithm. First, we condition the language model on the initial output and
feedback to generate many refinements. Second, we choose the refinement with
the highest similarity to the feedback. Third, we finetune a language model to
maximize the likelihood of the chosen refinement given the input. In synthetic
experiments, we first evaluate whether language models accurately incorporate
feedback to produce refinements, finding that only large language models (175B
parameters) do so. Using only 100 samples of human-written feedback, our
learning algorithm finetunes a GPT-3 model to roughly human-level
summarization.
- Abstract(参考訳): 事前訓練された言語モデルは、例えば攻撃的なテキストや事実的に不正確な要約を生成するなど、私たちの好みに沿った方法でタスクを実行しないことが多い。
最近の研究は、単純な人間評価の形式から学ぶことによって、上記の問題にアプローチしている: モデル生成タスク出力のペアの比較。
比較フィードバックは人間の嗜好に関する限られた情報を伝える。
本稿では,人間評価ごとにより多くの情報を伝える自然言語フィードバックから学ぶことを提案する。
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
まず、初期出力とフィードバックに基づいて言語モデルを条件付け、多くの改良点を生成する。
第二に、フィードバックと最もよく似たリファインメントを選択します。
第3に,インプットに対して選択されたリファインメントの可能性を最大化するために,言語モデルを微調整する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価し、大きな言語モデル(175Bパラメータ)のみがそうであることを確認した。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
関連論文リスト
- Learning from Naturally Occurring Feedback [25.266461597402056]
チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出するスケーラブルな方法を提案する。
我々は,自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートした。
100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
論文 参考訳(メタデータ) (2024-07-15T17:41:34Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Training language models to follow instructions with human feedback [29.590666996229206]
本稿では,人間のフィードバックを微調整することで,言語モデルとユーザ意図との整合性を示す。
インストラクションGPTモデルは、有害な出力生成の真理性の改善と削減を示す。
論文 参考訳(メタデータ) (2022-03-04T07:04:42Z) - Estimating Subjective Crowd-Evaluations as an Additional Objective to
Improve Natural Language Generation [0.0]
我々は6つの異なる言語生成モデルについて,群衆による対話コーパスを用いて微調整を行う。
これらのモデルのうち2つはマルチタスク学習を取り入れ、明確な学習目標の一部としてラインの主観評価を使用する。
生成した対話行の人間による評価では、マルチタスクモデルによって生成された発話が主観的に最も典型的であり、最も会話を前進させ、最も攻撃的であることを明らかにした。
論文 参考訳(メタデータ) (2021-04-12T06:33:16Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。