論文の概要: Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation
- arxiv url: http://arxiv.org/abs/2401.07382v2
- Date: Mon, 19 Feb 2024 18:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:45:03.417800
- Title: Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation
- Title(参考訳): スパース報酬を超えて:テキスト生成における言語モデル批判による強化学習の強化
- Authors: Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, Lei
Meng
- Abstract要約: 強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.6763730290473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) can align language models with non-differentiable
reward signals, such as human preferences. However, a major challenge arises
from the sparsity of these reward signals - typically, there is only a single
reward for an entire output. This sparsity of rewards can lead to inefficient
and unstable learning. To address this challenge, our paper introduces an novel
framework that utilizes the critique capability of Large Language Models (LLMs)
to produce intermediate-step rewards during RL training. Our method involves
coupling a policy model with a critic language model, which is responsible for
providing comprehensive feedback of each part of the output. This feedback is
then translated into token or span-level rewards that can be used to guide the
RL training process. We investigate this approach under two different settings:
one where the policy model is smaller and is paired with a more powerful critic
model, and another where a single language model fulfills both roles. We assess
our approach on three text generation tasks: sentiment control, language model
detoxification, and summarization. Experimental results show that incorporating
artificial intrinsic rewards significantly improve both sample efficiency and
the overall performance of the policy model, supported by both automatic and
human evaluation.
- Abstract(参考訳): 強化学習(rl)は、言語モデルを人間の好みなど、区別できない報酬信号に合わせることができる。
しかしながら、これらの報酬信号のスパース性から生じる大きな課題は、通常、アウトプット全体に対して単一の報酬しかありません。
この報酬の幅は非効率で不安定な学習につながる可能性がある。
この課題に対処するため,本稿では,大規模言語モデル(LLM)の批判的能力を利用して,RLトレーニング中に中間段階の報酬を生成する新しいフレームワークを提案する。
本手法では,政策モデルと批判言語モデルを結合し,出力の各部分に対する総合的なフィードバックを提供する。
このフィードバックはトークンやスパンレベルの報酬に変換され、RLトレーニングプロセスのガイドに使用することができる。
我々は、ポリシーモデルが小さく、より強力な批判モデルと組み合わせられるものと、単一の言語モデルが両方の役割を担っているという2つの異なる設定の下でこのアプローチを調査した。
我々は,感情制御,言語モデルのデトックス化,要約という3つのテキスト生成タスクに対するアプローチを評価する。
実験の結果, 人工内因性報酬の導入は, 自動評価と人的評価の両面から, サンプル効率と政策モデル全体の性能を著しく向上させることがわかった。
関連論文リスト
- Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。