論文の概要: Languages are Rewards: Hindsight Finetuning using Human Feedback
- arxiv url: http://arxiv.org/abs/2302.02676v1
- Date: Mon, 6 Feb 2023 10:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:54:51.760630
- Title: Languages are Rewards: Hindsight Finetuning using Human Feedback
- Title(参考訳): 言語は後退する:人間のフィードバックを用いた隠れた微調整
- Authors: Hao Liu, Carmelo Sferrazza, Pieter Abbeel
- Abstract要約: 多様な人間のフィードバックから言語モデルを学習させるHendsight Finetuningと呼ばれる新しい手法を提案する。
後向きフィードバックと組み合わせたモデル生成の列にモデルを条件付け、最も好まれる出力を予測するためにモデルを微調整する。
本手法をGPT-Jに適用することにより,人間のフィードバック量と同じ量で要約および対話タスクの結果を大幅に改善する。
- 参考スコア(独自算出の注目度): 82.12391119640743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from human preferences is important for language models to be
helpful and useful for humans, and to align with human and social values.
Existing works focus on supervised finetuning of pretrained models, based on
curated model generations that are preferred by human labelers. Such works have
achieved remarkable successes in understanding and following instructions
(e.g., InstructGPT, ChatGPT, etc). However, to date, a key limitation of
supervised finetuning is that it cannot learn from negative ratings; models are
only trained on positive-rated data, which makes it data inefficient. Because
collecting human feedback data is both time consuming and expensive, it is
vital for the model to learn from all feedback, akin to the remarkable ability
of humans to learn from diverse feedback. In this work, we propose a novel
technique called Hindsight Finetuning for making language models learn from
diverse human feedback. In fact, our idea is motivated by how humans learn from
hindsight experience. We condition the model on a sequence of model generations
paired with hindsight feedback, and finetune the model to predict the most
preferred output. By doing so, models can learn to identify and correct
negative attributes or errors. Applying the method to GPT-J, we observe that it
significantly improves results on summarization and dialogue tasks using the
same amount of human feedback.
- Abstract(参考訳): 人間の好みから学ぶことは、言語モデルが人間にとって有益で役に立つこと、そして人間と社会の価値観に合わせるために重要である。
既存の作品は、人間のラベルが好むキュレーションされたモデル世代に基づいて、事前訓練されたモデルの微調整に焦点を当てている。
このような作品は理解と指示(例えば、インストラクションGPT、ChatGPTなど)において顕著な成功を収めた。
しかし、これまでは、教師付き微調整の鍵となる制限は、否定的な評価から学ぶことができないことである。
人間のフィードバックデータの収集には時間と費用がかかるため、モデルがすべてのフィードバックから学ぶことが不可欠である。
本研究では,多様な人間のフィードバックから言語モデルを学習させるHendsight Finetuningという新しい手法を提案する。
実際、私たちのアイデアは人間が後見経験からどのように学ぶかによって動機付けられています。
後向きフィードバックと組み合わせたモデル生成の列にモデルを条件付け、最も好まれる出力を予測するためにモデルを微調整する。
そうすることで、モデルが負の属性やエラーを識別し修正することを学ぶことができる。
本手法を GPT-J に適用することにより,人間のフィードバック量と同じ量で要約および対話タスクの結果を大幅に改善することを確認した。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention [39.41947934589526]
人間の説明によるトレーニングは、モデルが文章全体に広く参加することを奨励する。
教師付きモデルは、人間が信じている言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
論文 参考訳(メタデータ) (2021-04-16T14:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。