論文の概要: D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.08441v1
- Date: Thu, 15 Aug 2024 22:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 17:09:56.030191
- Title: D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning
- Title(参考訳): D5RL:データ駆動型深層強化学習のための分散データセット
- Authors: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine,
- Abstract要約: ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
- 参考スコア(独自算出の注目度): 99.33607114541861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at \url{https://sites.google.com/view/d5rl/}
- Abstract(参考訳): オフライン強化学習アルゴリズムは、コストや危険な現実世界の探索や大規模な事前収集データセットの恩恵を必要としない、データ駆動型RLメソッドを可能にするという約束を持っている。
これにより、実世界の応用が促進され、RL研究へのより標準化されたアプローチが実現される。
さらに、オフラインのRL手法は、探索における課題を克服するために、オンラインの微調整に効果的な初期化を提供することができる。
しかし、オフラインRLアルゴリズムの進捗を評価するには、実世界のタスクの特性を捉え、タスクの難しさの範囲を提供し、ドメインのパラメータ(例えば、水平線の長さ、報酬の幅)とデータパラメータ(例えば、狭いデモデータや広い探索データ)の両方をカバーできる、効果的で挑戦的なベンチマークが必要である。
近年のオフラインRLのかなりの進歩は、より単純なベンチマークタスクによって実現されているが、最も広く使われているデータセットは、パフォーマンスが飽和し、現実的なタスクの特性を反映できない可能性がある。
我々は,実世界のロボットシステムのモデルに基づいて,ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案し,スクリプトデータ,人間の遠隔操作者によって収集されたプレイスタイルデータ,その他のデータソースを含むさまざまなデータソースを含む。
提案するベンチマークは、状態ベースドメインと画像ベースドメインを対象とし、オフラインのRLとオンラインの微調整評価の両方をサポートする。
提案したベンチマークは、オフラインRLと微調整アルゴリズムの両方でさらなる進歩を期待する。
コード、例、タスク、データを持つウェブサイトは、 \url{https://sites.google.com/view/d5rl/} で入手できる。
関連論文リスト
- Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。