論文の概要: Near Real-World Benchmarks for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.00714v1
- Date: Mon, 1 Feb 2021 09:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 00:03:49.045019
- Title: Near Real-World Benchmarks for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための近世界ベンチマーク
- Authors: Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai Huang,
Zewen Li, Weinan Zhang, Yang Yu
- Abstract要約: 本稿では,近世界のベンチマークであるNewRLについて紹介する。
NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。
我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
- 参考スコア(独自算出の注目度): 26.642722521820467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims at learning an optimal policy from a
batch of collected data, without extra interactions with the environment during
training. Offline RL attempts to alleviate the hazardous executions in
environments, thus it will greatly broaden the scope of RL applications.
However, current offline RL benchmarks commonly have a large reality gap. They
involve large datasets collected by highly exploratory policies, and a trained
policy is directly evaluated in the environment. Meanwhile, in real-world
situations, running a highly exploratory policy is prohibited to ensure system
safety, the data is commonly very limited, and a trained policy should be well
validated before deployment. In this paper, we present a suite of near
real-world benchmarks, NewRL. NewRL contains datasets from various domains with
controlled sizes and extra test datasets for the purpose of policy validation.
We then evaluate existing offline RL algorithms on NewRL. In the experiments,
we argue that the performance of a policy should also be compared with the
deterministic version of the behavior policy, instead of the dataset reward.
Because the deterministic behavior policy is the baseline in the real
scenarios, while the dataset is often collected with action perturbations that
can degrade the performance. The empirical results demonstrate that the tested
offline RL algorithms appear only competitive to the above deterministic policy
on many datasets, and the offline policy evaluation hardly helps. The NewRL
suit can be found at http://polixir.ai/research/newrl. We hope this work will
shed some light on research and draw more attention when deploying RL in
real-world systems.
- Abstract(参考訳): オフライン強化学習(rl)は、トレーニング中の環境との余分なインタラクションなしに、収集したデータのバッチから最適なポリシーを学ぶことを目的としている。
オフラインRLは環境における有害な実行を緩和しようとするため、RLアプリケーションの範囲を大きく広げることになる。
しかし、現在のオフラインRLベンチマークは一般的に大きな現実的なギャップがある。
それらは、非常に探索的なポリシーによって収集された大きなデータセットを含み、訓練されたポリシーは、環境内で直接評価されます。
一方、現実の状況では、高度に探索的なポリシーを実行することは、システムの安全性を確保するために禁止され、データは一般的に非常に制限され、トレーニングされたポリシーは、デプロイ前に適切に検証されるべきである。
本稿では,近世界のベンチマークであるNewRLについて述べる。
NewRLには、ポリシー検証のために制御されたサイズと追加のテストデータセットを備えたさまざまなドメインのデータセットが含まれています。
既存のオフラインRLアルゴリズムをNewRL上で評価する。
実験では、データセット報酬の代わりに、ポリシーのパフォーマンスも行動ポリシーの決定論的なバージョンと比較されるべきであると主張します。
決定論的行動ポリシーは実際のシナリオのベースラインであるため、データセットはパフォーマンスを低下させる可能性のあるアクション摂動で収集されることが多い。
実験結果から,テスト済みのオフラインRLアルゴリズムは,上記の多くのデータセットに対する決定論的ポリシと競合するだけであり,オフラインポリシ評価がほとんど役に立たないことが示された。
NewRL スーツは http://polixir.ai/research/newrl で見ることができる。
この研究が研究に光を当て、現実世界のシステムにRLをデプロイする際にもっと注目されることを願っています。
関連論文リスト
- Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。