論文の概要: Offline Reinforcement Learning Hands-On
- arxiv url: http://arxiv.org/abs/2011.14379v1
- Date: Sun, 29 Nov 2020 14:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 08:59:05.916865
- Title: Offline Reinforcement Learning Hands-On
- Title(参考訳): オフライン強化学習ハンズオン
- Authors: Louis Monier, Jakub Kmec, Alexandre Laterre, Thomas Pierrot, Valentin
Courgeau, Olivier Sigaud and Karim Beguir
- Abstract要約: オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
- 参考スコア(独自算出の注目度): 60.36729294485601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) aims to turn large datasets into powerful
decision-making engines without any online interactions with the environment.
This great promise has motivated a large amount of research that hopes to
replicate the success RL has experienced in simulation settings. This work
ambitions to reflect upon these efforts from a practitioner viewpoint. We start
by discussing the dataset properties that we hypothesise can characterise the
type of offline methods that will be the most successful. We then verify these
claims through a set of experiments and designed datasets generated from
environments with both discrete and continuous action spaces. We experimentally
validate that diversity and high-return examples in the data are crucial to the
success of offline RL and show that behavioural cloning remains a strong
contender compared to its contemporaries. Overall, this work stands as a
tutorial to help people build their intuition on today's offline RL methods and
their applicability.
- Abstract(参考訳): オフライン強化学習(RL)は、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この大きな約束は、RLがシミュレーション設定で経験した成功を再現したいと考えている多くの研究の動機となった。
この仕事は、実践者の視点からこれらの取り組みを反映する野心がある。
まず、最も成功したオフラインメソッドのタイプを特徴付けることができると仮定するデータセットプロパティについて議論する。
次に、これらの主張を一連の実験を通して検証し、離散的かつ連続的なアクション空間を持つ環境から生成されたデータセットを設計する。
データの多様性と高復帰例がオフラインRLの成功に不可欠であることを実験的に検証し、現在よりも行動的クローンが強力な競合相手であることを示す。
全体として、この作業は、今日のオフラインのRLメソッドとその適用性に関する直感の構築を支援するためのチュートリアルである。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。