論文の概要: Datasets and Benchmarks for Offline Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.09303v1
- Date: Thu, 15 Jun 2023 17:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:24:05.015949
- Title: Datasets and Benchmarks for Offline Safe Reinforcement Learning
- Title(参考訳): オフライン安全強化学習のためのデータセットとベンチマーク
- Authors: Zuxin Liu, Zijian Guo, Haohong Lin, Yihang Yao, Jiacheng Zhu, Zhepeng
Cen, Hanjiang Hu, Wenhao Yu, Tingnan Zhang, Jie Tan, Ding Zhao
- Abstract要約: 本稿では、オフライン安全な強化学習(RL)課題に適した総合ベンチマークスイートを提案する。
ベンチマークスイートには3つのパッケージがある: 1) 専門家による安全なポリシー、2) D4RLスタイルのデータセットと環境ラッパー、3) 高品質のオフライン安全なRLベースライン実装。
- 参考スコア(独自算出の注目度): 22.912420819434516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a comprehensive benchmarking suite tailored to offline
safe reinforcement learning (RL) challenges, aiming to foster progress in the
development and evaluation of safe learning algorithms in both the training and
deployment phases. Our benchmark suite contains three packages: 1) expertly
crafted safe policies, 2) D4RL-styled datasets along with environment wrappers,
and 3) high-quality offline safe RL baseline implementations. We feature a
methodical data collection pipeline powered by advanced safe RL algorithms,
which facilitates the generation of diverse datasets across 38 popular safe RL
tasks, from robot control to autonomous driving. We further introduce an array
of data post-processing filters, capable of modifying each dataset's diversity,
thereby simulating various data collection conditions. Additionally, we provide
elegant and extensible implementations of prevalent offline safe RL algorithms
to accelerate research in this area. Through extensive experiments with over
50000 CPU and 800 GPU hours of computations, we evaluate and compare the
performance of these baseline algorithms on the collected datasets, offering
insights into their strengths, limitations, and potential areas of improvement.
Our benchmarking framework serves as a valuable resource for researchers and
practitioners, facilitating the development of more robust and reliable offline
safe RL solutions in safety-critical applications. The benchmark website is
available at \url{www.offline-saferl.org}.
- Abstract(参考訳): 本稿では,オフライン型安全強化学習(RL)の課題に合わせた総合的なベンチマークスイートを提案する。
ベンチマークスイートには3つのパッケージがあります。
1)専門家による安全政策
2)D4RLスタイルのデータセットと環境ラッパー
3) 高品質のオフライン安全なRLベースライン実装。
ロボット制御から自律運転に至るまで,38の一般的な安全RLタスクにまたがる多様なデータセットの生成を容易にする,高度な安全RLアルゴリズムを活用した方法論的なデータ収集パイプラインを特徴とする。
さらに、各データセットの多様性を変更し、様々なデータ収集条件をシミュレートできるデータ後処理フィルタの配列を導入する。
さらに、この領域の研究を加速するために、先行するオフライン安全なRLアルゴリズムのエレガントで拡張可能な実装を提供する。
50000 cpu と 800 gpu 時間を超える計算による広範囲な実験を通じて、収集したデータセットにおけるこれらのベースラインアルゴリズムのパフォーマンスを評価し比較し、その長所、限界、改善の潜在的な領域について洞察を提供する。
我々のベンチマークフレームワークは研究者や実践者にとって貴重なリソースであり、安全クリティカルなアプリケーションにおいてより堅牢で信頼性の高いオフライン安全なRLソリューションの開発を促進する。
ベンチマークのウェブサイトは \url{www.offline-saferl.org} で入手できる。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - AD4RL: Autonomous Driving Benchmarks for Offline Reinforcement Learning with Value-based Dataset [2.66269503676104]
本稿では、オフライン強化学習研究のための自律走行データセットとベンチマークを提供する。
現実世界の人間のドライバーのデータセットを含む19のデータセットと、一般的なオフライン強化学習アルゴリズム7つを、現実的な3つのシナリオで提供しています。
論文 参考訳(メタデータ) (2024-04-03T03:36:35Z) - Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。