論文の概要: Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization
- arxiv url: http://arxiv.org/abs/2210.01241v1
- Date: Mon, 3 Oct 2022 21:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:23:27.223969
- Title: Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization
- Title(参考訳): 自然言語処理のための強化学習(not)は?
自然言語政策最適化のためのベンチマーク・ベースライン・ビルディングブロック
- Authors: Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kiant\'e Brantley, Jack
Hessel, Rafet Sifa, Christian Bauckhage, Hannaneh Hajishirzi, Yejin Choi
- Abstract要約: 我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 73.74371798168642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of aligning pre-trained large language models (LMs)
with human preferences. If we view text generation as a sequential
decision-making problem, reinforcement learning (RL) appears to be a natural
conceptual framework. However, using RL for LM-based generation faces empirical
challenges, including training instability due to the combinatorial action
space, as well as a lack of open-source libraries and benchmarks customized for
LM alignment. Thus, a question rises in the research community: is RL a
practical paradigm for NLP?
To help answer this, we first introduce an open-source modular library,
RL4LMs (Reinforcement Learning for Language Models), for optimizing language
generators with RL. The library consists of on-policy RL algorithms that can be
used to train any encoder or encoder-decoder LM in the HuggingFace library
(Wolf et al. 2020) with an arbitrary reward function. Next, we present the GRUE
(General Reinforced-language Understanding Evaluation) benchmark, a set of 6
language generation tasks which are supervised not by target strings, but by
reward functions which capture automated measures of human preference.GRUE is
the first leaderboard-style evaluation of RL algorithms for NLP tasks. Finally,
we introduce an easy-to-use, performant RL algorithm, NLPO (Natural Language
Policy Optimization)} that learns to effectively reduce the combinatorial
action space in language generation. We show 1) that RL techniques are
generally better than supervised methods at aligning LMs to human preferences;
and 2) that NLPO exhibits greater stability and performance than previous
policy gradient methods (e.g., PPO (Schulman et al. 2017)), based on both
automatic and human evaluation.
- Abstract(参考訳): 我々は、事前訓練された大規模言語モデル(LM)と人間の嗜好を整合させる問題に取り組む。
テキスト生成を逐次意思決定問題とみなす場合、強化学習(RL)は自然な概念的枠組みであると考えられる。
しかし、LMベースの生成にRLを使用することは、組合せアクション空間によるトレーニング不安定性や、LMアライメント用にカスタマイズされたオープンソースライブラリやベンチマークの欠如など、経験的な課題に直面している。
RLはNLPの実践パラダイムなのだろうか?
この問題を解決するために、まずオープンソースのモジュールライブラリRL4LM(Reinforcement Learning for Language Models)を導入し、RLで言語ジェネレータを最適化する。
このライブラリはオンポリシーrlアルゴリズムで構成されており、任意の報酬関数を備えたhughingfaceライブラリ(wolf et al. 2020)でエンコーダやエンコーダデコーダlmのトレーニングに使用することができる。
次に、GRUE(General Reinforced- Language Understanding Evaluation)ベンチマークを提案する。このベンチマークは、ターゲット文字列ではなく、人間の嗜好の自動測定をキャプチャする報酬関数によって教師される6つの言語生成タスクのセットである。
最後に,言語生成における組合せ的動作空間を効果的に削減することを学ぶために,使い易く高性能なrlアルゴリズムであるnlpo(natural language policy optimization)を提案する。
展示
1)RL法は一般に、LMをヒトの嗜好に合わせるための監督方法よりも優れている。
2) NLPOは, 従来の政策勾配法(例えば, PPO (Schulman et al. 2017))よりも, 自動評価と人的評価の両方に基づいて, 安定性と性能を示す。
関連論文リスト
- Natural Language Reinforcement Learning [23.310602238815285]
Reinforcement Learning (RL) はマルコフ決定過程 (MDP) を用いて決定を数学的に定式化する
本稿では,従来のMDPを自然言語に基づく表現空間に拡張することで,自然言語強化学習(NLRL)の可能性を探る。
論文 参考訳(メタデータ) (2024-11-21T15:57:02Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。