論文の概要: RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.13888v4
- Date: Fri, 12 Feb 2021 18:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:33:39.525473
- Title: RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning
- Title(参考訳): RL Unplugged: オフライン強化学習のためのベンチマークスイート
- Authors: Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Tom Le Paine, Sergio
Gomez Colmenarejo, Konrad Zolna, Rishabh Agarwal, Josh Merel, Daniel
Mankowitz, Cosmin Paduraru, Gabriel Dulac-Arnold, Jerry Li, Mohammad Norouzi,
Matt Hoffman, Ofir Nachum, George Tucker, Nicolas Heess and Nando de Freitas
- Abstract要約: オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
- 参考スコア(独自算出の注目度): 108.9599280270704
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline methods for reinforcement learning have a potential to help bridge
the gap between reinforcement learning research and real-world applications.
They make it possible to learn policies from offline datasets, thus overcoming
concerns associated with online data collection in the real-world, including
cost, safety, or ethical concerns. In this paper, we propose a benchmark called
RL Unplugged to evaluate and compare offline RL methods. RL Unplugged includes
data from a diverse range of domains including games (e.g., Atari benchmark)
and simulated motor control problems (e.g., DM Control Suite). The datasets
include domains that are partially or fully observable, use continuous or
discrete actions, and have stochastic vs. deterministic dynamics. We propose
detailed evaluation protocols for each domain in RL Unplugged and provide an
extensive analysis of supervised learning and offline RL methods using these
protocols. We will release data for all our tasks and open-source all
algorithms presented in this paper. We hope that our suite of benchmarks will
increase the reproducibility of experiments and make it possible to study
challenging tasks with a limited computational budget, thus making RL research
both more systematic and more accessible across the community. Moving forward,
we view RL Unplugged as a living benchmark suite that will evolve and grow with
datasets contributed by the research community and ourselves. Our project page
is available on https://git.io/JJUhd.
- Abstract(参考訳): 強化学習のオフライン手法は、強化学習研究と実世界の応用とのギャップを埋めるのに役立つ可能性がある。
これにより、オフラインデータセットからポリシーを学ぶことができ、コスト、安全性、倫理的懸念など、現実世界のオンラインデータ収集に関連する懸念を克服することができる。
本稿では,オフラインRL手法の評価と比較を行うRL Unpluggedというベンチマークを提案する。
RL Unpluggedはゲーム(例えばAtariベンチマーク)やシミュレーションモーター制御問題(例えばDM Control Suite)を含む様々な領域のデータを含んでいる。
データセットには、部分的または完全に観測可能で、連続的または離散的アクションを使用し、確率的対決定論的ダイナミクスを持つドメインが含まれている。
本稿では、RL Unpluggedにおける各領域に対する詳細な評価プロトコルを提案し、これらのプロトコルを用いて教師付き学習とオフラインRL手法の広範な解析を行う。
本論文で提示したすべてのタスクとすべてのアルゴリズムのデータをリリースします。
我々のベンチマークスイートが実験の再現性を高め、限られた計算予算で挑戦的なタスクを研究できるようになれば、RLの研究はより体系的で、コミュニティ全体でアクセスしやすいものになると期待しています。
今後は、RL Unpluggedを、研究コミュニティと私たち自身の貢献したデータセットで進化し、成長する、生きたベンチマークスイートとして見ている。
プロジェクトページはhttps://git.io/jjuhd.com/で閲覧できます。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - Online and Offline Reinforcement Learning by Planning with a Learned
Model [15.8026041700727]
本稿では、モデルベースのポリシーと値改善演算子を用いて、既存のデータポイント上の新しい改善されたトレーニングターゲットを計算するReanalyseアルゴリズムについて述べる。
Reanalyseは環境相互作用のない実演から完全に学習するためにも利用できることを示す。
オフラインRLを含む任意のデータ予算に対して単一の統一アルゴリズムである MuZero Unplugged を導入する。
論文 参考訳(メタデータ) (2021-04-13T15:36:06Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。