論文の概要: Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training
- arxiv url: http://arxiv.org/abs/2306.01693v2
- Date: Mon, 30 Oct 2023 06:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:54:27.984578
- Title: Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training
- Title(参考訳): 言語モデルトレーニングのための人体フィードバックの微粒化
- Authors: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj
Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
- Abstract要約: 言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
- 参考スコア(独自算出の注目度): 108.25635150124539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.
- Abstract(参考訳): 言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
人間のフィードバックからの強化学習(RLHF) – LM出力に対する人間の嗜好判断が学習信号に変換される – は、これらの問題に対処する上での約束を最近示した。
しかし、このような全体論的フィードバックは、長いテキスト出力に関する限られた情報を伝えるものであり、出力のどの側面がユーザーの好みに影響を与えているかを示すものではない。
本稿では, 明快な訓練信号として, きめ細かい人間のフィードバック(例えば, 文は偽で, サブ文は無関係)を用いる。
我々は,(1)各セグメント(文など)が生成されてから報酬を与える密度,(2)異なるフィードバックタイプ(事実的誤り,不適切性,情報不完全性など)に関連付けられた複数の報酬モデルを統合する,2つの点で微細な報酬関数からのトレーニングと学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
我々は,このような報酬関数による学習が,自動評価と人的評価の両方で支持されるパフォーマンス向上につながることを示すために,解毒および長文質問応答の実験を行った。
さらに、細粒度報酬モデルの異なる組み合わせを用いて、LMの挙動をカスタマイズできることを示す。
すべてのデータ、人間のフィードバック、コードをhttps://FineGrainedRLHF.github.ioで公開しています。
関連論文リスト
- Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Distributional Preference Learning: Understanding and Accounting for
Hidden Context in RLHF [11.398009498073316]
実際には、人間のフィードバックからの好みの学習は、隠れたコンテキストを持つ不完全なデータに依存する。
本研究では、人間のフィードバックからの強化学習を含む嗜好学習の標準的な応用が、隠れた文脈の上に暗黙的に集約されていることを示す。
隠れコンテキストをよりよく考慮するために,分布選好学習(DPL)と呼ばれる手法のクラスを導入する。
論文 参考訳(メタデータ) (2023-12-13T18:51:34Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - LeTI: Learning to Generate from Textual Interactions [59.79240825328176]
本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。
本研究は,自然言語命令に応答してコード片を生成するコード生成タスクに焦点をあてる。
LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文 参考訳(メタデータ) (2022-08-23T02:19:10Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。