論文の概要: Co-learning Planning and Control Policies Using Differentiable Formal
Task Constraints
- arxiv url: http://arxiv.org/abs/2303.01346v1
- Date: Thu, 2 Mar 2023 15:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:42:37.265246
- Title: Co-learning Planning and Control Policies Using Differentiable Formal
Task Constraints
- Title(参考訳): 微分形式的タスク制約を用いた協調学習計画と制御方略
- Authors: Zikang Xiong, Joe Eappen, Daniel Lawson, Ahmed H. Qureshi, Suresh
Jagannathan
- Abstract要約: 本稿では,信号時間論理に制約された階層的強化学習アルゴリズムを提案する。
安定してポリシー更新を制限できることを示し、異なるレベルのポリシーを同時に学習できるようにします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a hierarchical reinforcement learning algorithm
constrained by differentiable signal temporal logic. Previous work on
logic-constrained reinforcement learning consider encoding these constraints
with a reward function, constraining policy updates with a sample-based policy
gradient. However, such techniques oftentimes tend to be inefficient because of
the significant number of samples required to obtain accurate policy gradients.
In this paper, instead of implicitly constraining policy search with
sample-based policy gradients, we directly constrain policy search by
backpropagating through formal constraints, enabling training hierarchical
policies with substantially fewer training samples. The use of hierarchical
policies is recognized as a crucial component of reinforcement learning with
task constraints. We show that we can stably constrain policy updates, thus
enabling different levels of the policy to be learned simultaneously, yielding
superior performance compared with training them separately. Experiment results
on several simulated high-dimensional robot dynamics and a real-world
differential drive robot (TurtleBot3) demonstrate the effectiveness of our
approach on five different types of task constraints. Demo videos, code, and
models can be found at our project website: https://sites.google.com/view/dscrl
- Abstract(参考訳): 本稿では,信号時間論理に制約された階層的強化学習アルゴリズムを提案する。
論理制約強化学習における従来の研究は、これらの制約を報酬関数でエンコードすることを考慮し、ポリシー更新をサンプルベースのポリシー勾配で制限する。
しかし、こうした手法は正確な政策勾配を得るのに必要なサンプルがかなり多いため、しばしば非効率である。
本稿では,サンプルに基づく政策勾配による政策探索を暗黙的に制限する代わりに,形式的制約を緩和することで,政策探索を直接的に制約する。
階層的政策の利用は、タスク制約を伴う強化学習の重要な要素として認識されている。
ポリシー更新を安定的に制約することで、異なるレベルのポリシーを同時に学習することができ、個別にトレーニングするよりも優れたパフォーマンスが得られることを示す。
実世界のディファレンシャルドライブロボット(TurtleBot3)とシミュレーションされた高次元ロボットの動作実験により,5種類のタスク制約に対するアプローチの有効性が示された。
デモビデオ、コード、モデルは、プロジェクトのwebサイト(https://sites.google.com/view/dscrl.com)で見ることができる。
関連論文リスト
- Bridging the gap between Learning-to-plan, Motion Primitives and Safe Reinforcement Learning [20.158498233576143]
キノダイナミック制約の下での軌道計画は、高度なロボティクス応用の基礎となる。
キノダイナミックプランニングの最近の進歩は、複雑な制約の下で複雑な動きを学習・計画技術が生成できることを実証している。
本稿では,学習から計画までの手法と強化学習を組み合わせることで,動作プリミティブのブラックボックス学習と最適化の新たな統合を実現する。
論文 参考訳(メタデータ) (2024-08-26T07:44:53Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。
このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。
我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文 参考訳(メタデータ) (2021-03-31T00:05:54Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Learning compositional models of robot skills for task and motion
planning [39.36562555272779]
センサモレータプリミティブを用いて複雑な長距離操作問題を解決することを学ぶ。
能動的学習とサンプリングに最先端の手法を用いる。
我々は,選択した原始行動の質を計測することで,シミュレーションと実世界の双方でアプローチを評価する。
論文 参考訳(メタデータ) (2020-06-08T20:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。