論文の概要: Actor-Critic Physics-informed Neural Lyapunov Control
- arxiv url: http://arxiv.org/abs/2403.08448v1
- Date: Wed, 13 Mar 2024 12:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:41.502589
- Title: Actor-Critic Physics-informed Neural Lyapunov Control
- Title(参考訳): Actor-Critic Physics-informed Neural Lyapunov Control
- Authors: Jiarui Wang and Mahyar Fazlyab
- Abstract要約: 重要なパフォーマンス指標は、結果のアトラクション領域のサイズである。
本稿では,アトラクション領域の最大化を目的とした,安定化ニューラルネットワークコントローラのトレーニング手法を提案する。
いくつかの設計問題に対する数値実験により, 得られたアトラクション領域のサイズが一貫した, 顕著な改善が見られた。
- 参考スコア(独自算出の注目度): 9.926212277119676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing control policies for stabilization tasks with provable guarantees
is a long-standing problem in nonlinear control. A crucial performance metric
is the size of the resulting region of attraction, which essentially serves as
a robustness "margin" of the closed-loop system against uncertainties. In this
paper, we propose a new method to train a stabilizing neural network controller
along with its corresponding Lyapunov certificate, aiming to maximize the
resulting region of attraction while respecting the actuation constraints.
Crucial to our approach is the use of Zubov's Partial Differential Equation
(PDE), which precisely characterizes the true region of attraction of a given
control policy. Our framework follows an actor-critic pattern where we
alternate between improving the control policy (actor) and learning a Zubov
function (critic). Finally, we compute the largest certifiable region of
attraction by invoking an SMT solver after the training procedure. Our
numerical experiments on several design problems show consistent and
significant improvements in the size of the resulting region of attraction.
- Abstract(参考訳): 証明可能な保証付き安定化タスクの制御ポリシーを設計することは、非線形制御における長年の課題である。
重要なパフォーマンス指標は、結果として生じるアトラクションの領域のサイズであり、本質的には不確実性に対する閉ループシステムの堅牢性(margin)として機能する。
本稿では,アクティベーション制約を尊重しつつ,アトラクションの領域を最大化することを目的として,対応するリアプノフ証明とともに安定化ニューラルネットワークコントローラをトレーニングする新しい手法を提案する。
我々のアプローチにとって重要なのは、Zubovの偏微分方程式(Partial Differential Equation, PDE)を使うことであり、これは与えられた制御ポリシーの真の魅力の領域を正確に特徴づけている。
私たちのフレームワークは,コントロールポリシ(アクタ)の改善とZubov関数(アクタ)の学習を交互に行うアクタ批判パターンに従っています。
最後に、トレーニング手順後にSMTソルバを起動することで、アトラクションの最大の認証領域を計算する。
いくつかの設計問題に対する数値実験により, 得られたアトラクション領域のサイズが一貫した, 顕著な改善が見られた。
関連論文リスト
- Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation [67.63756749551924]
学習ベースのニューラルネットワーク(NN)制御ポリシは、ロボット工学と制御の幅広いタスクにおいて、印象的な経験的パフォーマンスを示している。
非線形力学系を持つNNコントローラのトラクション領域(ROA)に対するリアプノフ安定性の保証は困難である。
我々は、高速な経験的ファルシフィケーションと戦略的正則化を用いて、Lyapunov証明書とともにNNコントローラを学習するための新しいフレームワークを実証する。
論文 参考訳(メタデータ) (2024-04-11T17:49:15Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking [4.9653656404010205]
本研究では,ベイズアクター批判型強化学習アルゴリズムを導入し,安定度を保証した制御ポリシーを学習する。
提案アルゴリズムは, 宇宙機搭載テストベッドで実験的に評価され, 目覚ましい性能と有望な性能を示す。
論文 参考訳(メタデータ) (2023-11-07T03:12:58Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Neural Lyapunov Redesign [36.2939747271983]
学習コントローラは、エージェントや環境に害を与えないように、何らかの安全の概念を保証しなければなりません。
リアプノフ関数は非線形力学系の安定性を評価する効果的なツールである。
本稿では,リアプノフ関数の推定と,安定領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-06T19:22:20Z) - Neural Lyapunov Control [14.534839557929375]
非線形制御問題に対する制御ポリシーとニューラルネットワークのリアプノフ関数の学習法を提案する。
このフレームワークは、制御とリアプノフ関数を見つけようとする学習者と、学習者が迅速にソリューションへ導くための反例を見つけるファルシファイアで構成されている。
論文 参考訳(メタデータ) (2020-05-01T21:18:39Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。