論文の概要: Chain of Hindsight Aligns Language Models with Feedback
- arxiv url: http://arxiv.org/abs/2302.02676v8
- Date: Wed, 18 Oct 2023 07:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 21:02:47.872527
- Title: Chain of Hindsight Aligns Language Models with Feedback
- Title(参考訳): フィードバックを伴う隠れたアライメント言語モデルの連鎖
- Authors: Hao Liu, Carmelo Sferrazza, Pieter Abbeel
- Abstract要約: 我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
- 参考スコア(独自算出の注目度): 62.68665658130472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from human preferences is important for language models to match
human needs and to align with human and social values. Prior works have
achieved remarkable successes by learning from human feedback to understand and
follow instructions. Nonetheless, these methods are either founded on
hand-picked model generations that are favored by human annotators, rendering
them inefficient in terms of data utilization and challenging to apply in
general, or they depend on reinforcement learning, which often suffers from
imperfect reward functions and relies on extremely challenging optimizations.
In this work, we propose a novel technique, Chain of Hindsight, that is easy to
optimize and can learn from any form of feedback, regardless of its polarity.
Our idea is inspired by how humans learn from extensive feedback presented in
the form of languages. We convert all types of feedback into sequences of
sentences, which are then used to fine-tune the model, allowing us to take
advantage of the language comprehension capabilities of language models. We
condition the model on a sequence of model generations paired with feedback. By
doing so, the model is trained to generate outputs based on feedback, while
learning to identify and correct negative attributes or errors. Applying our
method to large language models, we observed that Chain of Hindsight
significantly surpasses previous methods in aligning language models with human
preferences. We report significant improvements on summarization and dialogue
benchmarks, with our approach markedly preferred in human evaluations.
- Abstract(参考訳): 人間の嗜好から学ぶことは、言語モデルが人間の要求にマッチし、人間や社会的価値に合わせるために重要である。
以前の作品は、人間のフィードバックから学び、指示を理解し、従うことで、目覚ましい成功を収めた。
それにもかかわらず、これらの手法は人間のアノテータに好まれる手書きモデル世代に基づいて構築され、データ利用の面で効率が悪く、一般に適用が難しいか、あるいは不完全な報酬機能に悩まされ、極めて困難な最適化に依存している強化学習に依存している。
本研究では,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
私たちのアイデアは、人間が言語形式で提示された広範なフィードバックから学ぶ方法にインスピレーションを受けています。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用し、言語モデルの言語理解能力を活用できるようにします。
フィードバックとペアリングしたモデル生成のシーケンス上でモデルを条件付けする。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
提案手法を大規模言語モデルに適用することにより,Hendsight の Chain が従来の手法をはるかに上回り,言語モデルと人間の嗜好の整合を図った。
要約と対話のベンチマークにおいて有意な改善を報告し,このアプローチは人的評価において顕著に好まれる。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention [39.41947934589526]
人間の説明によるトレーニングは、モデルが文章全体に広く参加することを奨励する。
教師付きモデルは、人間が信じている言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
論文 参考訳(メタデータ) (2021-04-16T14:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。