論文の概要: Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems
- arxiv url: http://arxiv.org/abs/2005.04374v3
- Date: Tue, 27 Oct 2020 19:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 07:09:50.812641
- Title: Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems
- Title(参考訳): 非線形システムの安全探索と学習のためのチャンス制約軌道最適化
- Authors: Yashwanth Kumar Nakka, Anqi Liu, Guanya Shi, Anima Anandkumar, Yisong
Yue, and Soon-Jo Chung
- Abstract要約: 学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 81.7983463275447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based control algorithms require data collection with abundant
supervision for training. Safe exploration algorithms ensure the safety of this
data collection process even when only partial knowledge is available. We
present a new approach for optimal motion planning with safe exploration that
integrates chance-constrained stochastic optimal control with dynamics learning
and feedback control. We derive an iterative convex optimization algorithm that
solves an \underline{Info}rmation-cost \underline{S}tochastic
\underline{N}onlinear \underline{O}ptimal \underline{C}ontrol problem
(Info-SNOC). The optimization objective encodes control cost for performance
and exploration cost for learning, and the safety is incorporated as
distributionally robust chance constraints. The dynamics are predicted from a
robust regression model that is learned from data. The Info-SNOC algorithm is
used to compute a sub-optimal pool of safe motion plans that aid in exploration
for learning unknown residual dynamics under safety constraints. A stable
feedback controller is used to execute the motion plan and collect data for
model learning. We prove the safety of rollout from our exploration method and
reduction in uncertainty over epochs, thereby guaranteeing the consistency of
our learning method. We validate the effectiveness of Info-SNOC by designing
and implementing a pool of safe trajectories for a planar robot. We demonstrate
that our approach has higher success rate in ensuring safety when compared to a
deterministic trajectory optimization approach.
- Abstract(参考訳): 学習に基づく制御アルゴリズムは、トレーニングに十分な監督を持つデータ収集を必要とする。
安全な探索アルゴリズムは、部分的な知識しか得られなくても、このデータ収集プロセスの安全性を保証する。
確率制約付き確率的最適制御と動的学習とフィードバック制御を統合した安全な探索による最適運動計画手法を提案する。
本稿では, 繰り返し凸最適化アルゴリズムを導出し, コストのかかる アンダーライン{S}tochastic \underline{N}onlinear \underline{O}ptimal \underline{C}ontrol problem (Info-SNOC) を解く。
最適化の目的は、パフォーマンスの制御コストと学習の探索コストをエンコードし、安全性を分散的にロバストな確率制約として組み込む。
ダイナミクスは、データから学習した堅牢な回帰モデルから予測される。
Info-SNOCアルゴリズムは、安全制約の下で未知の残留力学を学習するのに役立つ安全な運動計画の最適化プールを計算するために使用される。
安定したフィードバックコントローラを使用して、動作計画を実行し、モデル学習のためのデータを収集する。
我々は,探索手法からのロールアウトの安全性とエポック上の不確実性の低減を証明し,学習方法の整合性を保証する。
平面ロボットの安全軌道プールの設計と実装によりInfo-SNOCの有効性を検証する。
提案手法は, 決定論的軌道最適化手法と比較して, 安全性確保に成功率が高いことを示す。
関連論文リスト
- Safe and Stable Closed-Loop Learning for Neural-Network-Supported Model Predictive Control [0.0]
基礎となるプロセスについて不完全な情報で操作するパラメタライズド予測コントローラの安全な学習について検討する。
本手法は, クローズドループにおけるシステム全体の長期的性能を安全かつ安定に保ちながら重視する。
ベイズ最適化に基づく学習手法に安定性情報を明示的に組み込むことにより,厳密な確率論的安全保証を実現する。
論文 参考訳(メタデータ) (2024-09-16T11:03:58Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。