論文の概要: Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective
- arxiv url: http://arxiv.org/abs/2105.05473v1
- Date: Wed, 12 May 2021 07:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:32:36.974011
- Title: Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective
- Title(参考訳): オフライン強化学習に向けた解釈可能な性能解析:データセットの観点から
- Authors: Chenyang Xi, Bo Tang, Jiajun Shen, Xinfu Liu, Feiyu Xiong, Xueying Li
- Abstract要約: 既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
- 参考スコア(独自算出の注目度): 6.526790418943535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) has increasingly become the focus of the
artificial intelligent research due to its wide real-world applications where
the collection of data may be difficult, time-consuming, or costly. In this
paper, we first propose a two-fold taxonomy for existing offline RL algorithms
from the perspective of exploration and exploitation tendency. Secondly, we
derive the explicit expression of the upper bound of extrapolation error and
explore the correlation between the performance of different types of
algorithms and the distribution of actions under states. Specifically, we relax
the strict assumption on the sufficiently large amount of state-action tuples.
Accordingly, we provably explain why batch constrained Q-learning (BCQ)
performs better than other existing techniques. Thirdly, after identifying the
weakness of BCQ on dataset of low mean episode returns, we propose a modified
variant based on top return selection mechanism, which is proved to be able to
gain state-of-the-art performance on various datasets. Lastly, we create a
benchmark platform on the Atari domain, entitled RL easy go (RLEG), at an
estimated cost of more than 0.3 million dollars. We make it open-source for
fair and comprehensive competitions between offline RL algorithms with complete
datasets and checkpoints being provided.
- Abstract(参考訳): オフライン強化学習(rl)は、データ収集が困難、時間がかかり、コストがかかる、現実世界の幅広いアプリケーションのために、人工知能研究の焦点となっている。
本稿では,まず,探索・活用傾向の観点から,既存のオフラインrlアルゴリズムの2次元分類法を提案する。
第2に,外挿誤差の上限の明示的表現を導出し,異なる種類のアルゴリズムの性能と状態下での動作の分布との相関について検討する。
具体的には、十分な量のステートアクションタプルに対する厳密な仮定を緩和します。
したがって、バッチ制約型q-learning(bcq)が他の既存の技術よりも優れている理由を説明できる。
第三に、低平均エピソードリターンのデータセット上でのBCQの弱点を特定した後、トップリターン選択機構に基づく修正版を提案する。
最後に、Atariドメイン上でRL easy go(RLEG)というベンチマークプラットフォームを作成します。
完全なデータセットとチェックポイントが提供されるオフラインRLアルゴリズムの公正かつ包括的な競合に対して、オープンソースにしています。
関連論文リスト
- Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Offline Equilibrium Finding [40.08360411502593]
オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
論文 参考訳(メタデータ) (2022-07-12T03:41:06Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。