論文の概要: DRLC: Reinforcement Learning with Dense Rewards from LLM Critic
- arxiv url: http://arxiv.org/abs/2401.07382v1
- Date: Sun, 14 Jan 2024 22:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:32:48.049238
- Title: DRLC: Reinforcement Learning with Dense Rewards from LLM Critic
- Title(参考訳): DRLC:LLM批判からのDense Rewardsによる強化学習
- Authors: Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, Lei
Meng
- Abstract要約: 強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,LLMの批判的能力を活用して,学習過程を通じて深い報酬を生み出す新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 29.6763730290473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) can align language models with non-differentiable
reward signals, such as human preferences. However, a major challenge arises
from the sparsity of these reward signals - typically, there is only one reward
for the entire generation. This sparsity of rewards can lead to inefficient and
unstable learning. In this paper, we introduce a novel framework leveraging the
critique ability of LLMs to produce dense rewards throughout the learning
process. Our approach incorporates a critic language model alongside the policy
model. This critic is prompted with the task description, question, policy
model's output, and environment's reward signal as input, and provides token or
span-level dense rewards that reflect the quality of each segment of the
output. We assess our approach on three text generation tasks: sentiment
control, language model detoxification, and summarization. Experimental results
show that incorporating artificial dense rewards in training yields consistent
performance gains over the PPO baseline with holistic rewards. Furthermore, in
a setting where the same model serves as both policy and critic, we demonstrate
that "self-critique" rewards also boost learning efficiency.
- Abstract(参考訳): 強化学習(rl)は、言語モデルを人間の好みなど、区別できない報酬信号に合わせることができる。
しかし、これらの報酬信号のスパース性から生じる大きな課題は、通常、世代全体に対して1つの報酬しか存在しないことである。
この報酬の幅は非効率で不安定な学習につながる可能性がある。
本稿では,LLMの批判的能力を活用して,学習過程を通じて深い報酬を生み出す新しい枠組みを提案する。
我々のアプローチには、政策モデルと並んで批判言語モデルが組み込まれています。
この批評家は、タスク記述、質問、ポリシーモデルの出力、環境の報酬信号を入力として促され、出力の各セグメントの品質を反映したトークンまたはスパンレベルの密集した報酬を提供する。
我々は,感情制御,言語モデルのデトックス化,要約という3つのテキスト生成タスクに対するアプローチを評価する。
実験結果から, 人工的な高密度報酬をトレーニングに取り入れることで, PPOベースラインを総合的な報酬で一貫した性能向上が得られることがわかった。
さらに,同じモデルが政策と批判の両方として機能する環境では,自己批判的報酬が学習効率を高めることを実証する。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。