論文の概要: Chain of Hindsight Aligns Language Models with Feedback
- arxiv url: http://arxiv.org/abs/2302.02676v6
- Date: Sat, 25 Mar 2023 23:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 00:33:38.982088
- Title: Chain of Hindsight Aligns Language Models with Feedback
- Title(参考訳): フィードバックを伴う隠れたアライメント言語モデルの連鎖
- Authors: Hao Liu, Carmelo Sferrazza, Pieter Abbeel
- Abstract要約: 我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文に変換し、それをモデルを微調整するために使用し、言語モデルの言語理解能力を活用できるようにします。
- 参考スコア(独自算出の注目度): 82.12391119640743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from human preferences is important for language models to be
helpful and useful for humans, and to align with human and social values. Prior
work have achieved remarkable successes by learning from human feedback to
understand and follow instructions. Nonetheless, these methods are either
founded on hand-picked model generations that are favored by human annotators,
rendering them ineffective in terms of data utilization and challenging to
apply in general, or they depend on reward functions and reinforcement
learning, which are prone to imperfect reward function and extremely
challenging to optimize. In this work, we propose a novel technique, Chain of
Hindsight, that is easy to optimize and can learn from any form of feedback,
regardless of its polarity. Our idea is inspired by how humans learn from
extensive feedback presented in the form of languages. We convert all types of
feedback into sentences, which are then used to fine-tune the model, allowing
us to take advantage of the language comprehension capabilities of language
models. We condition the model on a sequence of model generations paired with
feedback. By doing so, models are trained to generate outputs based on
feedback, and models can learn to identify and correct negative attributes or
errors. Applying our method to large language models, we observed that Chain of
Hindsight significantly surpasses previous methods in aligning language models
with human preferences. We observed significant improvements on summarization
and dialogue tasks and our approach is markedly preferred in human evaluations.
- Abstract(参考訳): 人間の好みから学ぶことは、言語モデルが人間にとって有益で役に立つこと、そして人間と社会の価値観に合わせるために重要である。
これまでの作業は、人間のフィードバックから学び、指示を理解し、従うことで、目覚ましい成功を収めてきました。
それにもかかわらず、これらの手法は人間のアノテータに好まれる手書きモデル世代に基づいて構築され、データ利用の面では効果が無く、一般に適用が難しいか、あるいは報酬関数や強化学習に依存している。
本研究では,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
私たちのアイデアは、人間が言語形式で提示された広範なフィードバックから学ぶ方法にインスピレーションを受けています。
我々は、あらゆる種類のフィードバックを文に変換し、それをモデルを微調整するために使用し、言語モデルの言語理解能力を活用できるようにする。
フィードバックとペアリングしたモデル生成のシーケンス上でモデルを条件付けする。
そうすることで、モデルはフィードバックに基づいてアウトプットを生成するように訓練され、モデルは負の属性やエラーを識別し、修正することを学ぶことができる。
提案手法を大規模言語モデルに適用することにより,Hendsight の Chain が従来の手法をはるかに上回り,言語モデルと人間の嗜好の整合を図った。
要約と対話のタスクにおいて有意な改善がみられ,人間評価ではそのアプローチが顕著に好まれる。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention [39.41947934589526]
人間の説明によるトレーニングは、モデルが文章全体に広く参加することを奨励する。
教師付きモデルは、人間が信じている言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
論文 参考訳(メタデータ) (2021-04-16T14:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。