論文の概要: Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training
- arxiv url: http://arxiv.org/abs/2306.01693v2
- Date: Mon, 30 Oct 2023 06:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:54:27.984578
- Title: Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training
- Title(参考訳): 言語モデルトレーニングのための人体フィードバックの微粒化
- Authors: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj
Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
- Abstract要約: 言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
- 参考スコア(独自算出の注目度): 108.25635150124539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.
- Abstract(参考訳): 言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
人間のフィードバックからの強化学習(RLHF) – LM出力に対する人間の嗜好判断が学習信号に変換される – は、これらの問題に対処する上での約束を最近示した。
しかし、このような全体論的フィードバックは、長いテキスト出力に関する限られた情報を伝えるものであり、出力のどの側面がユーザーの好みに影響を与えているかを示すものではない。
本稿では, 明快な訓練信号として, きめ細かい人間のフィードバック(例えば, 文は偽で, サブ文は無関係)を用いる。
我々は,(1)各セグメント(文など)が生成されてから報酬を与える密度,(2)異なるフィードバックタイプ(事実的誤り,不適切性,情報不完全性など)に関連付けられた複数の報酬モデルを統合する,2つの点で微細な報酬関数からのトレーニングと学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
我々は,このような報酬関数による学習が,自動評価と人的評価の両方で支持されるパフォーマンス向上につながることを示すために,解毒および長文質問応答の実験を行った。
さらに、細粒度報酬モデルの異なる組み合わせを用いて、LMの挙動をカスタマイズできることを示す。
すべてのデータ、人間のフィードバック、コードをhttps://FineGrainedRLHF.github.ioで公開しています。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - Aligning language models with human preferences [5.0994393083677]
大量のテキストデータに基づいて訓練された言語モデル(LM)は高度なスキルを習得することができる。
また、人間の嗜好に反する行動を示す。
LMを人間の好みに合わせるためのいくつかのアプローチを検討します。
論文 参考訳(メタデータ) (2024-04-18T12:55:18Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。