論文の概要: Plan-Space State Embeddings for Improved Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.14567v1
- Date: Thu, 30 Apr 2020 03:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:40:16.614580
- Title: Plan-Space State Embeddings for Improved Reinforcement Learning
- Title(参考訳): 強化学習改善のための計画空間状態埋め込み
- Authors: Max Pflueger and Gaurav S. Sukhatme
- Abstract要約: 提案手法は,計画や他の形態の実証から状態埋め込みを学習するための新しい手法である。
これらの埋め込みは、強化学習問題におけるロボット状態の強化としてどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 12.340412143459869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot control problems are often structured with a policy function that maps
state values into control values, but in many dynamic problems the observed
state can have a difficult to characterize relationship with useful policy
actions. In this paper we present a new method for learning state embeddings
from plans or other forms of demonstrations such that the embedding space has a
specified geometric relationship with the demonstrations. We present a novel
variational framework for learning these embeddings that attempts to optimize
trajectory linearity in the learned embedding space. We show how these
embedding spaces can then be used as an augmentation to the robot state in
reinforcement learning problems. We use kinodynamic planning to generate
training trajectories for some example environments, and then train embedding
spaces for these environments. We show empirically that observing a system in
the learned embedding space improves the performance of policy gradient
reinforcement learning algorithms, particularly by reducing the variance
between training runs. Our technique is limited to environments where
demonstration data is available, but places no limits on how that data is
collected. Our embedding technique provides a way to transfer domain knowledge
from existing technologies such as planning and control algorithms, into more
flexible policy learning algorithms, by creating an abstract representation of
the robot state with meaningful geometry.
- Abstract(参考訳): ロボット制御問題はしばしば、状態値を制御値にマッピングするポリシー関数で構成されるが、多くの動的問題において、観測された状態は有用なポリシーアクションとの関係を特徴づけるのが困難である。
本稿では, 実験計画等から状態埋め込みを学習するための新しい手法を提案し, 実験結果と埋め込み空間が特定の幾何学的関係を持つことを示す。
本稿では,学習埋め込み空間における軌道線形性を最適化しようとする,これらの埋め込みを学習するための新しい変分フレームワークを提案する。
次に,これらの埋め込み空間を,強化学習問題におけるロボット状態の補足として利用できることを示す。
私たちはkinodynamic planningを使って、例えば環境のトレーニングトラジェクタを生成し、それらの環境の埋め込みスペースをトレーニングします。
学習した埋め込み空間におけるシステム観察は、特にトレーニング実行間のばらつきを減らすことで、ポリシー勾配強化学習アルゴリズムの性能を向上させることを実証的に示す。
私たちの技術は、デモデータが利用可能な環境に限られていますが、そのデータの収集方法に制限はありません。
我々の埋め込み技術は、計画や制御アルゴリズムといった既存の技術からより柔軟なポリシー学習アルゴリズムにドメイン知識を移す方法を提供し、意味のある幾何学を持つロボット状態の抽象表現を作成する。
関連論文リスト
- AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learning-based Motion Planning in Dynamic Environments Using GNNs and
Temporal Encoding [15.58317292680615]
組込みとエッジ優先化ポリシの両方を学習するために,データアグリゲーションを用いた時間符号化と模倣学習を用いたGNNベースのアプローチを提案する。
実験により, 提案手法は, 最先端の完全な動的計画アルゴリズムよりも, オンラインプランニングを著しく高速化できることが示された。
論文 参考訳(メタデータ) (2022-10-16T01:27:16Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Planning from Images with Deep Latent Gaussian Process Dynamics [2.924868086534434]
計画は既知の環境力学の問題を制御するための強力なアプローチである。
未知の環境では、エージェントは計画を適用するためにシステムダイナミクスのモデルを学ぶ必要がある。
本稿では,環境と視覚的相互作用から低次元システムダイナミクスを学習する,遅延ガウス過程力学(DLGPD)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-07T21:29:45Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。