論文の概要: Learning Constraints from Locally-Optimal Demonstrations under Cost
Function Uncertainty
- arxiv url: http://arxiv.org/abs/2001.09336v1
- Date: Sat, 25 Jan 2020 15:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:24:09.419532
- Title: Learning Constraints from Locally-Optimal Demonstrations under Cost
Function Uncertainty
- Title(参考訳): コスト関数の不確実性下における局所最適実演からの学習制約
- Authors: Glen Chou, Necmiye Ozay, Dmitry Berenson
- Abstract要約: 本稿では,最適化されたコスト関数が学習者に不確実な地域最適実証からパラメトリック制約を学習するアルゴリズムを提案する。
本手法では、混合整数線形プログラム(MILP)における実演のKKT最適条件を用いて、実演の局所的最適性に整合した制約を学習する。
7-DOFアームと四重項の制約を学習することで高次元制約とシステムの評価を行い、競合する制約学習手法よりも優れており、環境における新しい制約満足軌道の計画に効果的に利用できることを示す。
- 参考スコア(独自算出の注目度): 6.950510860295866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm for learning parametric constraints from
locally-optimal demonstrations, where the cost function being optimized is
uncertain to the learner. Our method uses the Karush-Kuhn-Tucker (KKT)
optimality conditions of the demonstrations within a mixed integer linear
program (MILP) to learn constraints which are consistent with the local
optimality of the demonstrations, by either using a known constraint
parameterization or by incrementally growing a parameterization that is
consistent with the demonstrations. We provide theoretical guarantees on the
conservativeness of the recovered safe/unsafe sets and analyze the limits of
constraint learnability when using locally-optimal demonstrations. We evaluate
our method on high-dimensional constraints and systems by learning constraints
for 7-DOF arm and quadrotor examples, show that it outperforms competing
constraint-learning approaches, and can be effectively used to plan new
constraint-satisfying trajectories in the environment.
- Abstract(参考訳): 本稿では,最適化されたコスト関数が学習者に不確実な地域最適実証からパラメトリック制約を学習するアルゴリズムを提案する。
本手法では,混合整数線形プログラム(MILP)における実演のKKT最適条件を用いて,実演の局所的最適性に整合した制約を,既知の制約パラメータ化を用いて学習するか,あるいは実演と整合したパラメータ化を漸進的に成長させることにより学習する。
我々は,回収された安全/安全でない集合の保存性に関する理論的保証を提供し,局所最適デモンストレーションを用いた制約学習可能性の限界を分析する。
本手法は,7自由度アームおよび4自由度モデルの制約を学習することにより,高次元制約とシステムに対する評価を行い,制約学習の手法よりも優れており,環境下での新しい制約満足軌道計画に効果的に利用できることを示す。
関連論文リスト
- Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - OTClean: Data Cleaning for Conditional Independence Violations using
Optimal Transport [51.6416022358349]
sysは、条件付き独立性(CI)制約下でのデータ修復に最適な輸送理論を利用するフレームワークである。
我々はSinkhornの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発し、高次元および大規模データを効率的に処理する。
論文 参考訳(メタデータ) (2024-03-04T18:23:55Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Gaussian Process Constraint Learning for Scalable Chance-Constrained
Motion Planning from Demonstrations [7.079021327958753]
本稿では,ガウス過程(GP)に代表される制約を,局所最適実験から学習する方法を提案する。
提案手法は,5次元非ホロノミックカー,12次元四重極子,3リンク平面アームにおいて,複雑な非線形制約を学習できることを示す。
以上の結果から,GP制約は精度が高く,事前知識を必要とする従来の制約学習手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-12-08T22:47:58Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Uncertainty-Aware Constraint Learning for Adaptive Safe Motion Planning
from Demonstrations [6.950510860295866]
本稿では,実証から不確実な制約を満たすための学習方法を提案する。
提案手法はロバスト最適化を用いて,実証と整合した制約の潜在的無限の集合に対する信念を得る。
我々は,我々の制約信念の正確さと計画の安全性に関する確率的保証を導出する。
論文 参考訳(メタデータ) (2020-11-09T01:59:14Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Teaching the Old Dog New Tricks: Supervised Learning with Constraints [18.88930622054883]
機械学習に制約サポートを追加することは、データ駆動型AIシステムにおいて際立った問題に対処する可能性がある。
既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。
そこで本研究では,教師付きML手法に対する制約満足度を,最先端制約解決器の直接利用により,それぞれ異なる,補完的な制約満足度に基づく戦略について検討する。
論文 参考訳(メタデータ) (2020-02-25T09:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。