論文の概要: ImagineBench: Evaluating Reinforcement Learning with Large Language Model Rollouts
- arxiv url: http://arxiv.org/abs/2505.10010v1
- Date: Thu, 15 May 2025 06:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.207989
- Title: ImagineBench: Evaluating Reinforcement Learning with Large Language Model Rollouts
- Title(参考訳): ImagineBench: 大規模言語モデルのロールアウトによる強化学習の評価
- Authors: Jing-Cheng Pang, Kaiyuan Li, Yidi Wang, Si-Hang Yang, Shengyi Jiang, Yang Yu,
- Abstract要約: 強化学習(RL)における中心的な課題は、タスク固有のポリシーを学ぶために、広範囲の現実世界のインタラクションデータに依存することである。
我々は、オフラインRLアルゴリズムを評価するための最初の包括的なベンチマークであるImagineBenchを紹介する。
既存のオフラインRLアルゴリズムを単純に適用すれば、目に見えないタスクにおいて、最適以下のパフォーマンスが得られることを観察する。
- 参考スコア(独自算出の注目度): 10.273192140887481
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A central challenge in reinforcement learning (RL) is its dependence on extensive real-world interaction data to learn task-specific policies. While recent work demonstrates that large language models (LLMs) can mitigate this limitation by generating synthetic experience (noted as imaginary rollouts) for mastering novel tasks, progress in this emerging field is hindered due to the lack of a standard benchmark. To bridge this gap, we introduce ImagineBench, the first comprehensive benchmark for evaluating offline RL algorithms that leverage both real rollouts and LLM-imaginary rollouts. The key features of ImagineBench include: (1) datasets comprising environment-collected and LLM-imaginary rollouts; (2) diverse domains of environments covering locomotion, robotic manipulation, and navigation tasks; and (3) natural language task instructions with varying complexity levels to facilitate language-conditioned policy learning. Through systematic evaluation of state-of-the-art offline RL algorithms, we observe that simply applying existing offline RL algorithms leads to suboptimal performance on unseen tasks, achieving 35.44% success rate in hard tasks in contrast to 64.37% of method training on real rollouts for hard tasks. This result highlights the need for algorithm advancements to better leverage LLM-imaginary rollouts. Additionally, we identify key opportunities for future research: including better utilization of imaginary rollouts, fast online adaptation and continual learning, and extension to multi-modal tasks. Our code is publicly available at https://github.com/LAMDA-RL/ImagineBench.
- Abstract(参考訳): 強化学習(RL)における中心的な課題は、タスク固有のポリシーを学ぶために、広範囲の現実世界のインタラクションデータに依存することである。
最近の研究は、新しいタスクをマスターするための合成経験(想像上のロールアウト)を生成することで、大きな言語モデル(LLM)がこの制限を緩和できることを示したが、標準ベンチマークの欠如により、この新興分野の進歩は妨げられている。
このギャップを埋めるために、ImagineBenchを紹介します。これは、実際のロールアウトとLLM-イマジナリーロールアウトの両方を活用するオフラインRLアルゴリズムを評価するための、最初の包括的なベンチマークです。
イマジネーションベンチの主な特徴は,(1)環境選択型およびLCM-イマジナリーロールアウトを含むデータセット,(2)移動,ロボット操作,ナビゲーションタスクを含む多様な環境領域,(3)言語条件の政策学習を促進するために,様々な複雑性レベルを持つ自然言語タスク命令である。
最先端のオフラインRLアルゴリズムを体系的に評価することにより、既存のオフラインRLアルゴリズムを単純に適用すれば、未確認タスクにおける最適以下のパフォーマンスが得られ、ハードタスクにおけるメソッドトレーニングの64.37%とは対照的に、35.44%の成功率を達成した。
この結果は、LCMのイメージロールアウトをよりよく活用するためのアルゴリズムの進歩の必要性を浮き彫りにする。
さらに、今後の研究の鍵となる機会として、想像上のロールアウトの活用の向上、高速オンライン適応と継続学習、マルチモーダルタスクの拡張などを挙げる。
私たちのコードはhttps://github.com/LAMDA-RL/ImagineBench.comで公開されています。
関連論文リスト
- PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。