論文の概要: Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation
- arxiv url: http://arxiv.org/abs/2401.07382v2
- Date: Mon, 19 Feb 2024 18:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:45:03.417800
- Title: Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation
- Title(参考訳): スパース報酬を超えて:テキスト生成における言語モデル批判による強化学習の強化
- Authors: Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, Lei
Meng
- Abstract要約: 強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.6763730290473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) can align language models with non-differentiable
reward signals, such as human preferences. However, a major challenge arises
from the sparsity of these reward signals - typically, there is only a single
reward for an entire output. This sparsity of rewards can lead to inefficient
and unstable learning. To address this challenge, our paper introduces an novel
framework that utilizes the critique capability of Large Language Models (LLMs)
to produce intermediate-step rewards during RL training. Our method involves
coupling a policy model with a critic language model, which is responsible for
providing comprehensive feedback of each part of the output. This feedback is
then translated into token or span-level rewards that can be used to guide the
RL training process. We investigate this approach under two different settings:
one where the policy model is smaller and is paired with a more powerful critic
model, and another where a single language model fulfills both roles. We assess
our approach on three text generation tasks: sentiment control, language model
detoxification, and summarization. Experimental results show that incorporating
artificial intrinsic rewards significantly improve both sample efficiency and
the overall performance of the policy model, supported by both automatic and
human evaluation.
- Abstract(参考訳): 強化学習(rl)は、言語モデルを人間の好みなど、区別できない報酬信号に合わせることができる。
しかしながら、これらの報酬信号のスパース性から生じる大きな課題は、通常、アウトプット全体に対して単一の報酬しかありません。
この報酬の幅は非効率で不安定な学習につながる可能性がある。
この課題に対処するため,本稿では,大規模言語モデル(LLM)の批判的能力を利用して,RLトレーニング中に中間段階の報酬を生成する新しいフレームワークを提案する。
本手法では,政策モデルと批判言語モデルを結合し,出力の各部分に対する総合的なフィードバックを提供する。
このフィードバックはトークンやスパンレベルの報酬に変換され、RLトレーニングプロセスのガイドに使用することができる。
我々は、ポリシーモデルが小さく、より強力な批判モデルと組み合わせられるものと、単一の言語モデルが両方の役割を担っているという2つの異なる設定の下でこのアプローチを調査した。
我々は,感情制御,言語モデルのデトックス化,要約という3つのテキスト生成タスクに対するアプローチを評価する。
実験の結果, 人工内因性報酬の導入は, 自動評価と人的評価の両面から, サンプル効率と政策モデル全体の性能を著しく向上させることがわかった。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。