論文の概要: A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems
- arxiv url: http://arxiv.org/abs/2203.01387v3
- Date: Wed, 19 Apr 2023 00:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 18:28:20.359576
- Title: A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems
- Title(参考訳): オフライン強化学習に関する調査 : 分類学、レビュー、オープン問題
- Authors: Rafael Figueiredo Prudencio, Marcos R. O. A. Maximo, Esther Luna
Colombini
- Abstract要約: 強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of deep learning, reinforcement learning (RL)
has experienced a dramatic increase in popularity, scaling to previously
intractable problems, such as playing complex games from pixel observations,
sustaining conversations with humans, and controlling robotic agents. However,
there is still a wide range of domains inaccessible to RL due to the high cost
and danger of interacting with the environment. Offline RL is a paradigm that
learns exclusively from static datasets of previously collected interactions,
making it feasible to extract policies from large and diverse training
datasets. Effective offline RL algorithms have a much wider range of
applications than online RL, being particularly appealing for real-world
applications, such as education, healthcare, and robotics. In this work, we
contribute with a unifying taxonomy to classify offline RL methods.
Furthermore, we provide a comprehensive review of the latest algorithmic
breakthroughs in the field using a unified notation as well as a review of
existing benchmarks' properties and shortcomings. Additionally, we provide a
figure that summarizes the performance of each method and class of methods on
different dataset properties, equipping researchers with the tools to decide
which type of algorithm is best suited for the problem at hand and identify
which classes of algorithms look the most promising. Finally, we provide our
perspective on open problems and propose future research directions for this
rapidly growing field.
- Abstract(参考訳): ディープラーニングの普及に伴い、強化学習(rl)の人気が劇的に高まり、ピクセル観察による複雑なゲームをプレイしたり、人間との会話を継続したり、ロボットエージェントを制御するといった、これまで難解だった問題に拡大した。
しかし、高コストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムであり、大規模で多様なトレーニングデータセットからポリシーを抽出することができる。
効果的なオフラインRLアルゴリズムはオンラインRLよりもはるかに広い範囲のアプリケーションを持ち、特に教育、医療、ロボット工学といった現実世界のアプリケーションにアピールしている。
本研究は,オフラインRL法を分類する統合分類に貢献する。
さらに、統一表記法を用いて、この分野における最新のアルゴリズムのブレークスルーを網羅的にレビューするとともに、既存のベンチマークの特性と欠点をレビューする。
さらに,各手法と各手法の異なるデータセット特性に関するクラスの性能を要約し,手元にある問題に最適なアルゴリズムの種類を判断し,最も有望なアルゴリズムのクラスを特定するためのツールを研究者に提供する。
最後に,オープン問題に対する我々の視点を示し,この急速に成長する分野に対する今後の研究の方向性を提案する。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Offline Equilibrium Finding [40.08360411502593]
オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
論文 参考訳(メタデータ) (2022-07-12T03:41:06Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。