論文の概要: Gaussian Process Constraint Learning for Scalable Chance-Constrained
Motion Planning from Demonstrations
- arxiv url: http://arxiv.org/abs/2112.04612v1
- Date: Wed, 8 Dec 2021 22:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:45:49.523427
- Title: Gaussian Process Constraint Learning for Scalable Chance-Constrained
Motion Planning from Demonstrations
- Title(参考訳): 証明からの拡張的チャンス制約運動計画のためのガウス過程制約学習
- Authors: Glen Chou, Hao Wang, Dmitry Berenson
- Abstract要約: 本稿では,ガウス過程(GP)に代表される制約を,局所最適実験から学習する方法を提案する。
提案手法は,5次元非ホロノミックカー,12次元四重極子,3リンク平面アームにおいて,複雑な非線形制約を学習できることを示す。
以上の結果から,GP制約は精度が高く,事前知識を必要とする従来の制約学習手法よりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 7.079021327958753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for learning constraints represented as Gaussian
processes (GPs) from locally-optimal demonstrations. Our approach uses the
Karush-Kuhn-Tucker (KKT) optimality conditions to determine where on the
demonstrations the constraint is tight, and a scaling of the constraint
gradient at those states. We then train a GP representation of the constraint
which is consistent with and which generalizes this information. We further
show that the GP uncertainty can be used within a kinodynamic RRT to plan
probabilistically-safe trajectories, and that we can exploit the GP structure
within the planner to exactly achieve a specified safety probability. We
demonstrate our method can learn complex, nonlinear constraints demonstrated on
a 5D nonholonomic car, a 12D quadrotor, and a 3-link planar arm, all while
requiring minimal prior information on the constraint. Our results suggest the
learned GP constraint is accurate, outperforming previous constraint learning
methods that require more a priori knowledge.
- Abstract(参考訳): 本稿では,ガウス過程(GP)に代表される制約を,局所最適実験から学習する方法を提案する。
提案手法では,KKT(Karush-Kuhn-Tucker)最適条件を用いて,これらの状態における制約の厳密な位置と制約勾配のスケーリングを決定する。
次に、制約のGP表現をトレーニングし、この情報を一般化する。
さらに、GPの不確実性はキノダイナミックRT内で確率論的に安全な軌道計画に利用でき、プランナー内のGP構造を利用して特定の安全確率を正確に達成できることを示す。
本手法は,5次元非ホロノミックカー,12次元四重子,3リンク平面アームにおいて,制約の事前情報を最小にしつつ,複雑な非線形制約を学習できることを実証する。
以上の結果から,GP制約は精度が高く,事前知識を必要とする従来の制約学習手法よりも優れていたことが示唆された。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - Separated Proportional-Integral Lagrangian for Chance Constrained
Reinforcement Learning [6.600423613245076]
安全は、自動運転のような現実世界のタスクに適用される強化学習に不可欠です。
高い確率で状態制約の満足度を保証する機会制約は、要求を表すのに適しています。
既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。
論文 参考訳(メタデータ) (2021-02-17T02:40:01Z) - Uncertainty-Aware Constraint Learning for Adaptive Safe Motion Planning
from Demonstrations [6.950510860295866]
本稿では,実証から不確実な制約を満たすための学習方法を提案する。
提案手法はロバスト最適化を用いて,実証と整合した制約の潜在的無限の集合に対する信念を得る。
我々は,我々の制約信念の正確さと計画の安全性に関する確率的保証を導出する。
論文 参考訳(メタデータ) (2020-11-09T01:59:14Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Teaching the Old Dog New Tricks: Supervised Learning with Constraints [18.88930622054883]
機械学習に制約サポートを追加することは、データ駆動型AIシステムにおいて際立った問題に対処する可能性がある。
既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。
そこで本研究では,教師付きML手法に対する制約満足度を,最先端制約解決器の直接利用により,それぞれ異なる,補完的な制約満足度に基づく戦略について検討する。
論文 参考訳(メタデータ) (2020-02-25T09:47:39Z) - Learning Constraints from Locally-Optimal Demonstrations under Cost
Function Uncertainty [6.950510860295866]
本稿では,最適化されたコスト関数が学習者に不確実な地域最適実証からパラメトリック制約を学習するアルゴリズムを提案する。
本手法では、混合整数線形プログラム(MILP)における実演のKKT最適条件を用いて、実演の局所的最適性に整合した制約を学習する。
7-DOFアームと四重項の制約を学習することで高次元制約とシステムの評価を行い、競合する制約学習手法よりも優れており、環境における新しい制約満足軌道の計画に効果的に利用できることを示す。
論文 参考訳(メタデータ) (2020-01-25T15:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。