Fugu-MT 論文翻訳(概要): Improving Language Models with Advantage-based Offline Policy Gradients

論文の概要: Improving Language Models with Advantage-based Offline Policy Gradients

arxiv url: http://arxiv.org/abs/2305.14718v1
Date: Wed, 24 May 2023 04:42:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 19:39:08.517949
Title: Improving Language Models with Advantage-based Offline Policy Gradients
Title（参考訳）: アドバンテージに基づくオフラインポリシーグラディエントによる言語モデルの改善
Authors: Ashutosh Baheti, Ximing Lu, Faeze Brahman, Ronan Le Bras, Maarten Sap, Mark Riedl
Abstract要約: left-over Lunch RL (LoL-RL) は、言語生成タスクのオフラインポリシー勾配を1ステップのRLゲームとして使用する単純なトレーニングアルゴリズムである。 LoL-RLはLMを微調整して任意の分類器ベースまたは人間定義ユーティリティ関数を任意のシーケンス対シーケンスデータで最適化することができる。
参考スコア（独自算出の注目度）: 35.041017055815196
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Improving language model generations according to some user-defined quality or style constraints is challenging. Typical approaches include learning on additional human-written data, filtering ``low-quality'' data using heuristics and/or using reinforcement learning with human feedback (RLHF). However, filtering can remove valuable training signals, whereas data collection and RLHF constantly require additional human-written or LM exploration data which can be costly to obtain. A natural question to ask is ``Can we leverage RL to optimize LM utility on existing crowd-sourced and internet data?'' To this end, we present Left-over Lunch RL (LoL-RL), a simple training algorithm that uses offline policy gradients for learning language generation tasks as a 1-step RL game. LoL-RL can finetune LMs to optimize arbitrary classifier-based or human-defined utility functions on any sequence-to-sequence data. Experiments with five different language generation tasks using models of varying sizes and multiple rewards show that models trained with LoL-RL can consistently outperform the best supervised learning models. We also release our experimental code. https://github.com/abaheti95/LoL-RL
Abstract（参考訳）: ユーザ定義の品質やスタイル制約に従って言語モデル生成を改善することは困難である。典型的なアプローチとしては、追加の人間によるデータ学習、ヒューリスティックスを用いた‘低品質’データのフィルタリング、あるいは人間フィードバックによる強化学習(rlhf)などがある。しかしながら、フィルタリングは貴重なトレーニング信号を除去できるが、データ収集とrlhfは、コストのかかる人書きデータやlm探索データが必要となる。問うべき自然な問題は、'Can we leverage RL to optimization LM utility on existing crowd-sourced and internet data?'である。このために、言語生成タスクを1ステップのRLゲームとして学習するためのオフラインポリシー勾配を使用する単純なトレーニングアルゴリズムであるLeft-over Lunch RL(LoL-RL)を提示する。 LoL-RLはLMを微調整して任意の分類器ベースまたは人間定義ユーティリティ関数を任意のシーケンス対シーケンスデータで最適化することができる。様々な大きさのモデルと複数の報酬を用いた5つの異なる言語生成タスクの実験により、LoL-RLで訓練されたモデルは、教師付き学習モデルよりも一貫して優れていることが示された。実験コードもリリースしています。 https://github.com/abaheti95/LoL-RL

関連論文リスト

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文参考訳（メタデータ） (2025-01-06T06:17:56Z)
Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。 HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文参考訳（メタデータ） (2024-08-18T07:04:16Z)
TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大規模言語モデルの開発は、人間のアノテーションに大きく依存することによる課題に直面することが多い。この作業では、強化学習(Reinforcement Learning)へと方向転換します。我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文参考訳（メタデータ） (2024-03-13T16:57:57Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。 GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文参考訳（メタデータ） (2024-02-20T01:04:21Z)
Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文参考訳（メタデータ） (2024-02-07T12:31:13Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2023-08-17T14:12:48Z)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:38:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。