論文の概要: Evolutionary Planning in Latent Space
- arxiv url: http://arxiv.org/abs/2011.11293v1
- Date: Mon, 23 Nov 2020 09:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:07:55.164657
- Title: Evolutionary Planning in Latent Space
- Title(参考訳): 潜在空間における進化計画
- Authors: Thor V.A.N. Olesen, Dennis T.T. Nguyen, Rasmus Berg Palm, Sebastian
Risi
- Abstract要約: プランニングは、いくつかの望ましい特性を持つ強化学習の強力なアプローチである。
我々は、ラテントスペースにおける進化的計画を可能にする世界モデルを学ぶ。
ランダムなポリシーからのロールアウトでブートストラップし、より正確な計画ポリシーからのロールアウトで反復的に修正することで、世界のモデルを構築する方法を示します。
- 参考スコア(独自算出の注目度): 7.863826008567604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning is a powerful approach to reinforcement learning with several
desirable properties. However, it requires a model of the world, which is not
readily available in many real-life problems. In this paper, we propose to
learn a world model that enables Evolutionary Planning in Latent Space (EPLS).
We use a Variational Auto Encoder (VAE) to learn a compressed latent
representation of individual observations and extend a Mixture Density
Recurrent Neural Network (MDRNN) to learn a stochastic, multi-modal forward
model of the world that can be used for planning. We use the Random Mutation
Hill Climbing (RMHC) to find a sequence of actions that maximize expected
reward in this learned model of the world. We demonstrate how to build a model
of the world by bootstrapping it with rollouts from a random policy and
iteratively refining it with rollouts from an increasingly accurate planning
policy using the learned world model. After a few iterations of this
refinement, our planning agents are better than standard model-free
reinforcement learning approaches demonstrating the viability of our approach.
- Abstract(参考訳): 計画はいくつかの望ましい特性を持つ強化学習の強力なアプローチである。
しかし、現実世界の多くの問題では容易には利用できない世界のモデルが必要となる。
本稿では,潜在空間(epls)における進化計画を可能にする世界モデルを学ぶことを提案する。
変動型オートエンコーダ(vae)を用いて、個々の観測の圧縮潜在性表現を学習し、混合密度再帰ニューラルネットワーク(mdrnn)を拡張して、計画に使用できる世界の確率的マルチモーダルフォワードモデルを学ぶ。
我々はRandom Mutation Hill Climbing (RMHC) を用いて、この学習された世界のモデルにおいて期待される報酬を最大化する一連の行動を見つける。
ランダムなポリシーからロールアウトし、学習された世界モデルを使って、より正確な計画ポリシーからロールアウトを繰り返すことで、世界のモデルを構築する方法を実証する。
この改良を数回繰り返した結果、私たちの計画エージェントは、標準的なモデルなし強化学習アプローチよりも優れている。
関連論文リスト
- Adaptive World Models: Learning Behaviors by Latent Imagination Under Non-Stationarity [16.15952351162363]
私たちは新しいフォーマリズム、Hiddenを紹介します。
POMDP - 適応的な世界モデルで制御するために設計された。
提案手法は, 様々な非定常RLベンチマークにおけるロバストな動作の学習を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-11-02T19:09:56Z) - Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels [42.275164872809746]
Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
論文 参考訳(メタデータ) (2023-10-16T01:13:26Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - The Effectiveness of World Models for Continual Reinforcement Learning [19.796589322975017]
選択的な経験リプレイ手法がパフォーマンス, 忘れ, 移動に与える影響について検討する。
Continual-Dreamerはサンプル効率が高く、MinigridおよびMinihackベンチマーク上で、最先端のタスク非依存の継続的強化学習手法より優れています。
論文 参考訳(メタデータ) (2022-11-29T05:56:51Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z) - World Programs for Model-Based Learning and Planning in Compositional
State and Action Spaces [4.9023704104715256]
本研究では,学習者が動的モデルとグラフベースの構成環境における動作を学習することにより,世界プログラムを誘導するフォーマリズムを提案する。
我々は,最近の応用を取り上げ,コミュニティが世界プログラムベースの計画を評価する上での課題を提案する。
論文 参考訳(メタデータ) (2019-12-30T17:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。