論文の概要: Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization
- arxiv url: http://arxiv.org/abs/2210.01241v1
- Date: Mon, 3 Oct 2022 21:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:23:27.223969
- Title: Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization
- Title(参考訳): 自然言語処理のための強化学習(not)は?
自然言語政策最適化のためのベンチマーク・ベースライン・ビルディングブロック
- Authors: Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kiant\'e Brantley, Jack
Hessel, Rafet Sifa, Christian Bauckhage, Hannaneh Hajishirzi, Yejin Choi
- Abstract要約: 我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 73.74371798168642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of aligning pre-trained large language models (LMs)
with human preferences. If we view text generation as a sequential
decision-making problem, reinforcement learning (RL) appears to be a natural
conceptual framework. However, using RL for LM-based generation faces empirical
challenges, including training instability due to the combinatorial action
space, as well as a lack of open-source libraries and benchmarks customized for
LM alignment. Thus, a question rises in the research community: is RL a
practical paradigm for NLP?
To help answer this, we first introduce an open-source modular library,
RL4LMs (Reinforcement Learning for Language Models), for optimizing language
generators with RL. The library consists of on-policy RL algorithms that can be
used to train any encoder or encoder-decoder LM in the HuggingFace library
(Wolf et al. 2020) with an arbitrary reward function. Next, we present the GRUE
(General Reinforced-language Understanding Evaluation) benchmark, a set of 6
language generation tasks which are supervised not by target strings, but by
reward functions which capture automated measures of human preference.GRUE is
the first leaderboard-style evaluation of RL algorithms for NLP tasks. Finally,
we introduce an easy-to-use, performant RL algorithm, NLPO (Natural Language
Policy Optimization)} that learns to effectively reduce the combinatorial
action space in language generation. We show 1) that RL techniques are
generally better than supervised methods at aligning LMs to human preferences;
and 2) that NLPO exhibits greater stability and performance than previous
policy gradient methods (e.g., PPO (Schulman et al. 2017)), based on both
automatic and human evaluation.
- Abstract(参考訳): 我々は、事前訓練された大規模言語モデル(LM)と人間の嗜好を整合させる問題に取り組む。
テキスト生成を逐次意思決定問題とみなす場合、強化学習(RL)は自然な概念的枠組みであると考えられる。
しかし、LMベースの生成にRLを使用することは、組合せアクション空間によるトレーニング不安定性や、LMアライメント用にカスタマイズされたオープンソースライブラリやベンチマークの欠如など、経験的な課題に直面している。
RLはNLPの実践パラダイムなのだろうか?
この問題を解決するために、まずオープンソースのモジュールライブラリRL4LM(Reinforcement Learning for Language Models)を導入し、RLで言語ジェネレータを最適化する。
このライブラリはオンポリシーrlアルゴリズムで構成されており、任意の報酬関数を備えたhughingfaceライブラリ(wolf et al. 2020)でエンコーダやエンコーダデコーダlmのトレーニングに使用することができる。
次に、GRUE(General Reinforced- Language Understanding Evaluation)ベンチマークを提案する。このベンチマークは、ターゲット文字列ではなく、人間の嗜好の自動測定をキャプチャする報酬関数によって教師される6つの言語生成タスクのセットである。
最後に,言語生成における組合せ的動作空間を効果的に削減することを学ぶために,使い易く高性能なrlアルゴリズムであるnlpo(natural language policy optimization)を提案する。
展示
1)RL法は一般に、LMをヒトの嗜好に合わせるための監督方法よりも優れている。
2) NLPOは, 従来の政策勾配法(例えば, PPO (Schulman et al. 2017))よりも, 自動評価と人的評価の両方に基づいて, 安定性と性能を示す。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Natural Language Reinforcement Learning [25.165291680493844]
本稿では,自然言語表現とRLの原理を組み合わせた自然言語強化学習(NLRL)を紹介する。
具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。
論文 参考訳(メタデータ) (2024-02-11T11:03:04Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - Improving Language Models with Advantage-based Offline Policy Gradients [42.37248404979882]
本稿では,新しいオフラインポリシー勾配アルゴリズムであるAdvantage-Leftover Lunch RL (A-LoL)を紹介する。
A-LoLは、シーケンスレベルの分類器や人間設計のスコアリング機能を報酬として組み込むことができる。
A-LoLとその変種の有効性を4つの異なる言語生成タスクで示す。
論文 参考訳(メタデータ) (2023-05-24T04:42:17Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。