論文の概要: Offline Reinforcement Learning from Images with Latent Space Models
- arxiv url: http://arxiv.org/abs/2012.11547v1
- Date: Mon, 21 Dec 2020 18:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 09:55:03.469715
- Title: Offline Reinforcement Learning from Images with Latent Space Models
- Title(参考訳): 潜時空間モデルを用いた画像からのオフライン強化学習
- Authors: Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn
- Abstract要約: オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
- 参考スコア(独自算出の注目度): 60.69745540036375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) refers to the problem of learning
policies from a static dataset of environment interactions. Offline RL enables
extensive use and re-use of historical datasets, while also alleviating safety
concerns associated with online exploration, thereby expanding the real-world
applicability of RL. Most prior work in offline RL has focused on tasks with
compact state representations. However, the ability to learn directly from rich
observation spaces like images is critical for real-world applications such as
robotics. In this work, we build on recent advances in model-based algorithms
for offline RL, and extend them to high-dimensional visual observation spaces.
Model-based offline RL algorithms have achieved state of the art results in
state based tasks and have strong theoretical guarantees. However, they rely
crucially on the ability to quantify uncertainty in the model predictions,
which is particularly challenging with image observations. To overcome this
challenge, we propose to learn a latent-state dynamics model, and represent the
uncertainty in the latent space. Our approach is both tractable in practice and
corresponds to maximizing a lower bound of the ELBO in the unknown POMDP. In
experiments on a range of challenging image-based locomotion and manipulation
tasks, we find that our algorithm significantly outperforms previous offline
model-free RL methods as well as state-of-the-art online visual model-based RL
methods. Moreover, we also find that our approach excels on an image-based
drawer closing task on a real robot using a pre-existing dataset. All results
including videos can be found online at https://sites.google.com/view/lompo/ .
- Abstract(参考訳): オフライン強化学習(RL)とは、環境相互作用の静的データセットからの学習ポリシーの問題を指す。
オフラインRLは、過去のデータセットの広範な使用と再利用を可能にすると同時に、オンライン探索に関連する安全性上の懸念を緩和し、RLの現実的な適用性を拡大する。
オフラインrlのほとんどの作業は、コンパクトな状態表現を持つタスクに焦点を当てている。
しかし、画像のようなリッチな観測空間から直接学習できることは、ロボット工学のような現実世界の応用には不可欠である。
本研究では,オフラインrlのためのモデルベースアルゴリズムの最近の進歩に基づき,それらを高次元視覚観測空間に拡張する。
モデルベースオフラインRLアルゴリズムは、状態ベースタスクにおける技術結果の状態を達成し、強力な理論的保証を有する。
しかし、これらはモデル予測の不確実性を定量化する能力に大きく依存しており、特に画像観察では困難である。
この課題を克服するため,我々は潜在状態ダイナミクスモデルを学び,潜在空間における不確実性を表現することを提案する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
画像に基づくロコモーションと操作タスクの多種多様な実験において、我々のアルゴリズムは従来のオフラインモデルなしRL法と最先端のオンラインビジュアルモデルベースRL法を著しく上回っていることがわかった。
さらに,本手法は,既存のデータセットを用いた実ロボットにおける画像ベースドローダクローズタスクよりも優れていることがわかった。
ビデオを含むすべての結果は、https://sites.google.com/view/lompo/で見ることができる。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。