論文の概要: Improving and Benchmarking Offline Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2306.00972v1
- Date: Thu, 1 Jun 2023 17:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:49:18.883157
- Title: Improving and Benchmarking Offline Reinforcement Learning Algorithms
- Title(参考訳): オフライン強化学習アルゴリズムの改良とベンチマーク
- Authors: Bingyi Kang, Xiao Ma, Yirui Wang, Yang Yue, Shuicheng Yan
- Abstract要約: この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
- 参考スコア(独自算出の注目度): 87.67996706673674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Offline Reinforcement Learning (RL) has achieved remarkable
progress with the emergence of various algorithms and datasets. However, these
methods usually focus on algorithmic advancements, ignoring that many low-level
implementation choices considerably influence or even drive the final
performance. As a result, it becomes hard to attribute the progress in Offline
RL as these choices are not sufficiently discussed and aligned in the
literature. In addition, papers focusing on a dataset (e.g., D4RL) often ignore
algorithms proposed on another dataset (e.g., RL Unplugged), causing isolation
among the algorithms, which might slow down the overall progress. Therefore,
this work aims to bridge the gaps caused by low-level choices and datasets. To
this end, we empirically investigate 20 implementation choices using three
representative algorithms (i.e., CQL, CRR, and IQL) and present a guidebook for
choosing implementations. Following the guidebook, we find two variants CRR+
and CQL+ , achieving new state-of-the-art on D4RL. Moreover, we benchmark eight
popular offline RL algorithms across datasets under unified training and
evaluation framework. The findings are inspiring: the success of a learning
paradigm severely depends on the data distribution, and some previous
conclusions are biased by the dataset used. Our code is available at
https://github.com/sail-sg/offbench.
- Abstract(参考訳): 近年,様々なアルゴリズムやデータセットが出現し,オフライン強化学習(rl)が著しい進歩を遂げている。
しかし、これらの手法は通常アルゴリズムの進歩に焦点を当てており、多くの低レベルの実装選択が最終的な性能に大きく影響するか、あるいは後押しすることを無視している。
その結果、これらの選択が十分に議論されておらず、文献に整合していないため、オフラインRLの進展を考慮しがたい。
さらに、データセット(例えばD4RL)に焦点を当てた論文では、別のデータセット(例えばRL Unplugged)で提案されたアルゴリズムを無視することが多く、アルゴリズム間で孤立が生じ、全体的な進捗が遅くなる可能性がある。
そのため、この研究は低レベルの選択とデータセットによるギャップを埋めることを目的としている。
この目的のために,3つの代表的なアルゴリズム(cql,crr,iql)を用いた20の実装選択を実証的に検討し,実装選択のためのガイドブックを提案する。
ガイドブックの後、我々はCRR+とCQL+の2つの変種を見つけ、D4RL上で新しい最先端を実現する。
さらに,データセットにまたがる8つの人気のあるオフラインrlアルゴリズムを統一トレーニング・評価フレームワークでベンチマークする。
学習パラダイムの成功はデータ分布に大きく依存しており、以前の結論は使用されるデータセットに偏っている。
私たちのコードはhttps://github.com/sail-sg/offbenchで利用可能です。
関連論文リスト
- OGBench: Benchmarking Offline Goal-Conditioned RL [72.00291801676684]
オフライン目標条件強化学習(GCRL)は強化学習における大きな問題である。
オフラインゴール条件RLにおけるアルゴリズム研究のための,新しい高品質なベンチマークであるOGBenchを提案する。
論文 参考訳(メタデータ) (2024-10-26T06:06:08Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - Offline Equilibrium Finding [40.08360411502593]
オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
論文 参考訳(メタデータ) (2022-07-12T03:41:06Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。