論文の概要: Near Real-World Benchmarks for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.00714v1
- Date: Mon, 1 Feb 2021 09:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 00:03:49.045019
- Title: Near Real-World Benchmarks for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための近世界ベンチマーク
- Authors: Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai Huang,
Zewen Li, Weinan Zhang, Yang Yu
- Abstract要約: 本稿では,近世界のベンチマークであるNewRLについて紹介する。
NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。
我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
- 参考スコア(独自算出の注目度): 26.642722521820467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims at learning an optimal policy from a
batch of collected data, without extra interactions with the environment during
training. Offline RL attempts to alleviate the hazardous executions in
environments, thus it will greatly broaden the scope of RL applications.
However, current offline RL benchmarks commonly have a large reality gap. They
involve large datasets collected by highly exploratory policies, and a trained
policy is directly evaluated in the environment. Meanwhile, in real-world
situations, running a highly exploratory policy is prohibited to ensure system
safety, the data is commonly very limited, and a trained policy should be well
validated before deployment. In this paper, we present a suite of near
real-world benchmarks, NewRL. NewRL contains datasets from various domains with
controlled sizes and extra test datasets for the purpose of policy validation.
We then evaluate existing offline RL algorithms on NewRL. In the experiments,
we argue that the performance of a policy should also be compared with the
deterministic version of the behavior policy, instead of the dataset reward.
Because the deterministic behavior policy is the baseline in the real
scenarios, while the dataset is often collected with action perturbations that
can degrade the performance. The empirical results demonstrate that the tested
offline RL algorithms appear only competitive to the above deterministic policy
on many datasets, and the offline policy evaluation hardly helps. The NewRL
suit can be found at http://polixir.ai/research/newrl. We hope this work will
shed some light on research and draw more attention when deploying RL in
real-world systems.
- Abstract(参考訳): オフライン強化学習(rl)は、トレーニング中の環境との余分なインタラクションなしに、収集したデータのバッチから最適なポリシーを学ぶことを目的としている。
オフラインRLは環境における有害な実行を緩和しようとするため、RLアプリケーションの範囲を大きく広げることになる。
しかし、現在のオフラインRLベンチマークは一般的に大きな現実的なギャップがある。
それらは、非常に探索的なポリシーによって収集された大きなデータセットを含み、訓練されたポリシーは、環境内で直接評価されます。
一方、現実の状況では、高度に探索的なポリシーを実行することは、システムの安全性を確保するために禁止され、データは一般的に非常に制限され、トレーニングされたポリシーは、デプロイ前に適切に検証されるべきである。
本稿では,近世界のベンチマークであるNewRLについて述べる。
NewRLには、ポリシー検証のために制御されたサイズと追加のテストデータセットを備えたさまざまなドメインのデータセットが含まれています。
既存のオフラインRLアルゴリズムをNewRL上で評価する。
実験では、データセット報酬の代わりに、ポリシーのパフォーマンスも行動ポリシーの決定論的なバージョンと比較されるべきであると主張します。
決定論的行動ポリシーは実際のシナリオのベースラインであるため、データセットはパフォーマンスを低下させる可能性のあるアクション摂動で収集されることが多い。
実験結果から,テスト済みのオフラインRLアルゴリズムは,上記の多くのデータセットに対する決定論的ポリシと競合するだけであり,オフラインポリシ評価がほとんど役に立たないことが示された。
NewRL スーツは http://polixir.ai/research/newrl で見ることができる。
この研究が研究に光を当て、現実世界のシステムにRLをデプロイする際にもっと注目されることを願っています。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。