論文の概要: Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
- arxiv url: http://arxiv.org/abs/2402.12621v2
- Date: Thu, 6 Jun 2024 17:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 21:22:40.165002
- Title: Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
- Title(参考訳): Reflect-RL: LM用オンラインRLファインチューニング
- Authors: Runlong Zhou, Simon S. Du, Beibin Li,
- Abstract要約: オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
- 参考スコア(独自算出の注目度): 38.5495318990769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models (LMs) demonstrate their capabilities in various fields, their application to tasks requiring multi-round interactions has become increasingly popular. These tasks usually have complex dynamics, so supervised fine-tuning (SFT) on a limited offline dataset does not yield good performance. However, only a few works attempted to directly train the LMs within interactive decision-making environments. We aim to create an effective approach to fine-tune LMs with online reinforcement learning (RL) in these environments. We propose Reflect-RL, a two-player system to fine-tune an LM using SFT and online RL, where a frozen reflection model (player) assists the policy model (player). To generate data for the warm-up SFT stage, we use negative example generation to enhance the error-correction ability of the reflection model. Furthermore, we designed single-prompt action enumeration and applied curriculum learning to allow the policy model to learn more efficiently. Empirically, we verify that Reflect-RL outperforms SFT and online RL without reflection. Testing results indicate GPT-2 XL 1.56B fine-tuned with Reflect-RL outperforms larger open-source LMs, such as Mistral 7B. The benchmarks, dataset, and code involved in this work are publicly available: https://github.com/zhourunlong/Reflect-RL.
- Abstract(参考訳): 言語モデル(LM)が様々な分野でその能力を実証するにつれ、多ラウンドインタラクションを必要とするタスクへの応用がますます人気が高まっている。
これらのタスクは通常、複雑なダイナミクスを持つため、限定されたオフラインデータセット上の教師付き微調整(SFT)は、優れたパフォーマンスを得られない。
しかし、対話的な意思決定環境でLMを直接訓練する試みはごくわずかであった。
我々は,これらの環境下でのオンライン強化学習(RL)による微調整LMの効果的なアプローチを構築することを目指している。
SFTとオンラインRLを用いてLMを微調整するリフレクション-RLを提案し,フリーズ反射モデル(プレイヤ)がポリシーモデル(プレイヤ)を支援する。
ウォームアップSFTステージのデータを生成するために、負のサンプル生成を用いて反射モデルの誤差補正能力を向上する。
さらに,政策モデルをより効率的に学習できるように,シングルプロンプトアクション列挙とカリキュラム学習を適用した。
実験的に、リフレクション-RLは、リフレクションなしでSFTおよびオンラインRLより優れていることを検証した。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
この作業に関わるベンチマーク、データセット、コードは、https://github.com/zhourunlong/Reflect-RL.comで公開されている。
関連論文リスト
- TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大規模言語モデルの開発は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Leftover Lunch: Advantage-based Offline Reinforcement Learning for Language Models [39.98853470968973]
本稿では,新しいオフラインポリシー勾配アルゴリズムであるAdvantage-Leftover Lunch RL (A-LoL)を紹介する。
A-LoLは、シーケンスレベルの分類器や人間設計のスコアリング機能を報酬として組み込むことができる。
A-LoLとその変種の有効性を4つの異なる言語生成タスクで示す。
論文 参考訳(メタデータ) (2023-05-24T04:42:17Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。