論文の概要: Safe Pontryagin Differentiable Programming
- arxiv url: http://arxiv.org/abs/2105.14937v1
- Date: Mon, 31 May 2021 13:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 16:47:56.529952
- Title: Safe Pontryagin Differentiable Programming
- Title(参考訳): safe pontryagin 微分可能プログラミング
- Authors: Wanxin Jin, Shaoshuai Mou, George J. Pappas
- Abstract要約: 本稿では,安全クリティカルな学習・制御タスクの幅広いクラスを解決するための,理論的かつアルゴリズムによる安全な識別可能なフレームワークを提案する。
安全PDPの様々な安全学習・制御課題の解決能力を示す。
- 参考スコア(独自算出の注目度): 17.63374326658473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Safe Pontryagin Differentiable Programming (Safe PDP)
methodology, which establishes a theoretical and algorithmic safe
differentiable framework to solve a broad class of safety-critical learning and
control tasks -- problems that require the guarantee of both immediate and
long-term constraint satisfaction at any stage of the learning and control
progress. In the spirit of interior-point methods, Safe PDP handles different
types of state and input constraints by incorporating them into the cost and
loss through barrier functions. We prove the following fundamental features of
Safe PDP: first, both the constrained solution and its gradient in backward
pass can be approximated by solving a more efficient unconstrained counterpart;
second, the approximation for both the solution and its gradient can be
controlled for arbitrary accuracy using a barrier parameter; and third,
importantly, any intermediate results throughout the approximation and
optimization are strictly respecting all constraints, thus guaranteeing safety
throughout the entire learning and control process. We demonstrate the
capabilities of Safe PDP in solving various safe learning and control tasks,
including safe policy optimization, safe motion planning, and learning MPCs
from demonstrations, on different challenging control systems such as 6-DoF
maneuvering quadrotor and 6-DoF rocket powered landing.
- Abstract(参考訳): 安全ポントリャーギン差別化プログラミング(Safe Pontryagin Differentiable Programming, PDP)手法を提案し, 安全クリティカルな学習・制御タスクの幅広いクラスを, 学習・制御過程のどの段階においても, 即時および長期の制約満足度も保証する必要のある問題として, 理論的かつアルゴリズム的に安全な差別化可能なフレームワークを確立する。
インテリアポイント法の精神では、Safe PDPは障壁関数によるコストと損失にそれらを統合することで、異なるタイプの状態と入力制約を処理する。
We prove the following fundamental features of Safe PDP: first, both the constrained solution and its gradient in backward pass can be approximated by solving a more efficient unconstrained counterpart; second, the approximation for both the solution and its gradient can be controlled for arbitrary accuracy using a barrier parameter; and third, importantly, any intermediate results throughout the approximation and optimization are strictly respecting all constraints, thus guaranteeing safety throughout the entire learning and control process.
本研究では,安全政策の最適化,安全動作計画,mpcの学習など,様々な安全学習と制御課題を解決する上でのsafe pdpの能力を,6自由度操作や6自由度ロケット駆動着陸といった,さまざまな挑戦的な制御システム上で実証する。
関連論文リスト
- Pareto Control Barrier Function for Inner Safe Set Maximization Under Input Constraints [50.920465513162334]
入力制約下での動的システムの内部安全集合を最大化するPCBFアルゴリズムを提案する。
逆振り子に対するハミルトン・ヤコビの到達性との比較と,12次元四元数系のシミュレーションにより,その有効性を検証する。
その結果,PCBFは既存の手法を一貫して上回り,入力制約下での安全性を確保した。
論文 参考訳(メタデータ) (2024-10-05T18:45:19Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Distributionally Safe Reinforcement Learning under Model Uncertainty: A
Single-Level Approach by Differentiable Convex Programming [4.825619788907192]
We present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift by a Wasserstein metric。
トラクタビリティを向上させるために、まず双対性理論を用いて、低次最適化を無限次元確率空間から有限次元パラメトリック空間に変換する。
微分可能凸プログラミングにより、二段階安全な学習問題は、さらに2つの逐次計算効率のモジュールを持つ1つのレベルに削減される。
論文 参考訳(メタデータ) (2023-10-03T22:05:05Z) - Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。