論文の概要: Online and Offline Reinforcement Learning by Planning with a Learned
Model
- arxiv url: http://arxiv.org/abs/2104.06294v1
- Date: Tue, 13 Apr 2021 15:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:22:44.841803
- Title: Online and Offline Reinforcement Learning by Planning with a Learned
Model
- Title(参考訳): 学習モデルによる計画によるオンライン・オフライン強化学習
- Authors: Julian Schrittwieser and Thomas Hubert and Amol Mandhane and
Mohammadamin Barekatain and Ioannis Antonoglou and David Silver
- Abstract要約: 本稿では、モデルベースのポリシーと値改善演算子を用いて、既存のデータポイント上の新しい改善されたトレーニングターゲットを計算するReanalyseアルゴリズムについて述べる。
Reanalyseは環境相互作用のない実演から完全に学習するためにも利用できることを示す。
オフラインRLを含む任意のデータ予算に対して単一の統一アルゴリズムである MuZero Unplugged を導入する。
- 参考スコア(独自算出の注目度): 15.8026041700727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning efficiently from small amounts of data has long been the focus of
model-based reinforcement learning, both for the online case when interacting
with the environment and the offline case when learning from a fixed dataset.
However, to date no single unified algorithm could demonstrate state-of-the-art
results in both settings. In this work, we describe the Reanalyse algorithm
which uses model-based policy and value improvement operators to compute new
improved training targets on existing data points, allowing efficient learning
for data budgets varying by several orders of magnitude. We further show that
Reanalyse can also be used to learn entirely from demonstrations without any
environment interactions, as in the case of offline Reinforcement Learning
(offline RL). Combining Reanalyse with the MuZero algorithm, we introduce
MuZero Unplugged, a single unified algorithm for any data budget, including
offline RL. In contrast to previous work, our algorithm does not require any
special adaptations for the off-policy or offline RL settings. MuZero Unplugged
sets new state-of-the-art results in the RL Unplugged offline RL benchmark as
well as in the online RL benchmark of Atari in the standard 200 million frame
setting.
- Abstract(参考訳): 少数のデータから効率的に学ぶことは、固定データセットから学習する場合のオンラインケースとオフラインケースの両方において、モデルベースの強化学習の焦点となっている。
しかし、これまで両方の設定で最先端の結果を示す単一の統一アルゴリズムは存在しなかった。
本稿では,モデルに基づくポリシと値改善演算子を用いて,既存のデータポイント上での新たなトレーニング目標を計算し,データ予算を桁違いに効率的に学習するReanalyseアルゴリズムについて述べる。
さらに、オフラインの強化学習(オフラインRL)のように、環境相互作用のない実演から完全に学習するためにもReanalyseが利用できることを示す。
In the Reanalyse with the MuZero algorithm, we introduced MuZero Unplugged, a single unified algorithm for any data budget, including offline RL。
これまでの研究とは対照的に、我々のアルゴリズムは、オフポリシーやオフラインのRL設定に特別な適応を必要としない。
MuZero Unpluggedは、RL UnpluggedオフラインRLベンチマークと、標準2億フレーム設定におけるAtariのオンラインRLベンチマークに、新しい最先端の結果をセットする。
関連論文リスト
- Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。