論文の概要: Improving Language Models with Advantage-based Offline Policy Gradients
- arxiv url: http://arxiv.org/abs/2305.14718v2
- Date: Fri, 29 Sep 2023 07:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 18:46:50.279647
- Title: Improving Language Models with Advantage-based Offline Policy Gradients
- Title(参考訳): アドバンテージに基づくオフラインポリシーグラディエントによる言語モデルの改善
- Authors: Ashutosh Baheti, Ximing Lu, Faeze Brahman, Ronan Le Bras, Maarten Sap,
Mark Riedl
- Abstract要約: 本稿では,新しいオフラインポリシー勾配アルゴリズムであるAdvantage-Leftover Lunch RL (A-LoL)を紹介する。
A-LoLは、シーケンスレベルの分類器や人間設計のスコアリング機能を報酬として組み込むことができる。
A-LoLとその変種の有効性を4つの異なる言語生成タスクで示す。
- 参考スコア(独自算出の注目度): 42.37248404979882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstract Language Models (LMs) achieve substantial language capabilities when
finetuned using Reinforcement Learning with Human Feedback (RLHF). However,
RLHF is an unstable and data-hungry process that continually requires new
high-quality LM-generated data for finetuning. We introduce Advantage-Leftover
Lunch RL (A-LoL), a new class of offline policy gradient algorithms that enable
RL training on any pre-existing data. By assuming the entire LM output sequence
as a single action, A-LoL allows incorporating sequence-level classifiers or
human-designed scoring functions as rewards. Subsequently, by using LM's
internal sequence-level value estimate, A-LoL filters negative advantage
(low-quality) data points during training, making it resilient to noise.
Overall, A-LoL is an easy-to-implement LM training recipe that is
sample-efficient and stable.
We demonstrate the effectiveness of A-LoL and its variants with a set of four
different language generation tasks. We compare against both online RL (PPO)
and recent preference-based (DPO, PRO) and reward-based (GOLD) offline RL
baselines. On the commonly-used RLHF benchmark, Helpful and Harmless Assistant
(HHA), LMs trained with A-LoL methods achieve the highest diversity while also
being rated more safe and helpful than baselines according to humans.
Additionally, in the remaining three tasks, A-LoL could optimize multiple
distinct reward functions even when using noisy or suboptimal training data. We
also release our experimental code. https://github.com/abaheti95/LoL-RL
- Abstract(参考訳): 抽象言語モデル (LM) は、Reinforcement Learning with Human Feedback (RLHF) を用いて微調整された場合、かなりの言語能力を達成する。
しかし、RLHFは不安定でデータ処理のプロセスであり、微調整のために新しい高品質なLM生成データを必要とする。
本稿では,既存のデータに対するRLトレーニングを可能にするオフラインポリシー勾配アルゴリズムであるAdvantage-Leftover Lunch RL (A-LoL)を紹介する。
LM出力シーケンス全体を単一のアクションとして仮定することで、A-LoLはシーケンスレベルの分類器や人間設計のスコアリング機能を報酬として組み込むことができる。
その後、LMの内部シーケンスレベル値を推定することにより、A-LoLはトレーニング中に負の利点(低品質)のデータポイントをフィルタし、ノイズに耐性を持たせる。
全体として、A-LoLはサンプル効率が高く安定したLMトレーニングレシピである。
A-LoLとその変種の有効性を4つの異なる言語生成タスクで示す。
オンラインRL(PPO)と最近のRL(DPO, PRO)とオフラインRL(GOLD)を比較した。
一般的に使用されているRLHFベンチマークであるHelpful and Harmless Assistant (HHA)では、A-LoLメソッドで訓練されたLMは、人間によるベースラインよりも安全で役に立つと評価されている。
さらに、残りの3つのタスクにおいて、a-lolは、ノイズやサブオプティカルトレーニングデータを使用しても、複数の異なる報酬機能を最適化することができる。
実験コードもリリースしています。
https://github.com/abaheti95/LoL-RL
関連論文リスト
- Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大規模言語モデルの開発は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-20T01:04:21Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。