論文の概要: Offline Reinforcement Learning from Images with Latent Space Models
- arxiv url: http://arxiv.org/abs/2012.11547v1
- Date: Mon, 21 Dec 2020 18:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 09:55:03.469715
- Title: Offline Reinforcement Learning from Images with Latent Space Models
- Title(参考訳): 潜時空間モデルを用いた画像からのオフライン強化学習
- Authors: Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn
- Abstract要約: オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
- 参考スコア(独自算出の注目度): 60.69745540036375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) refers to the problem of learning
policies from a static dataset of environment interactions. Offline RL enables
extensive use and re-use of historical datasets, while also alleviating safety
concerns associated with online exploration, thereby expanding the real-world
applicability of RL. Most prior work in offline RL has focused on tasks with
compact state representations. However, the ability to learn directly from rich
observation spaces like images is critical for real-world applications such as
robotics. In this work, we build on recent advances in model-based algorithms
for offline RL, and extend them to high-dimensional visual observation spaces.
Model-based offline RL algorithms have achieved state of the art results in
state based tasks and have strong theoretical guarantees. However, they rely
crucially on the ability to quantify uncertainty in the model predictions,
which is particularly challenging with image observations. To overcome this
challenge, we propose to learn a latent-state dynamics model, and represent the
uncertainty in the latent space. Our approach is both tractable in practice and
corresponds to maximizing a lower bound of the ELBO in the unknown POMDP. In
experiments on a range of challenging image-based locomotion and manipulation
tasks, we find that our algorithm significantly outperforms previous offline
model-free RL methods as well as state-of-the-art online visual model-based RL
methods. Moreover, we also find that our approach excels on an image-based
drawer closing task on a real robot using a pre-existing dataset. All results
including videos can be found online at https://sites.google.com/view/lompo/ .
- Abstract(参考訳): オフライン強化学習(RL)とは、環境相互作用の静的データセットからの学習ポリシーの問題を指す。
オフラインRLは、過去のデータセットの広範な使用と再利用を可能にすると同時に、オンライン探索に関連する安全性上の懸念を緩和し、RLの現実的な適用性を拡大する。
オフラインrlのほとんどの作業は、コンパクトな状態表現を持つタスクに焦点を当てている。
しかし、画像のようなリッチな観測空間から直接学習できることは、ロボット工学のような現実世界の応用には不可欠である。
本研究では,オフラインrlのためのモデルベースアルゴリズムの最近の進歩に基づき,それらを高次元視覚観測空間に拡張する。
モデルベースオフラインRLアルゴリズムは、状態ベースタスクにおける技術結果の状態を達成し、強力な理論的保証を有する。
しかし、これらはモデル予測の不確実性を定量化する能力に大きく依存しており、特に画像観察では困難である。
この課題を克服するため,我々は潜在状態ダイナミクスモデルを学び,潜在空間における不確実性を表現することを提案する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
画像に基づくロコモーションと操作タスクの多種多様な実験において、我々のアルゴリズムは従来のオフラインモデルなしRL法と最先端のオンラインビジュアルモデルベースRL法を著しく上回っていることがわかった。
さらに,本手法は,既存のデータセットを用いた実ロボットにおける画像ベースドローダクローズタスクよりも優れていることがわかった。
ビデオを含むすべての結果は、https://sites.google.com/view/lompo/で見ることができる。
関連論文リスト
- INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
オフライン強化学習手法を分類するための統合分類法を提案する。
オフラインのRLアルゴリズムはオンラインのRLよりもはるかに広い範囲のアプリケーションを持っている。
我々は、オープンな問題に対する視点を提供し、この急速に成長する分野の今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Efficient State Representation Learning for Dynamic Robotic Scenarios [2.7554288121906296]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
本稿では、SRLを元の強化学習尺度に統合する、抽象表現によるポリシー最適化という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。