論文の概要: Stability Verification of Neural Network Controllers using Mixed-Integer
Programming
- arxiv url: http://arxiv.org/abs/2206.13374v1
- Date: Mon, 27 Jun 2022 15:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 17:16:19.976723
- Title: Stability Verification of Neural Network Controllers using Mixed-Integer
Programming
- Title(参考訳): 混合整数計画を用いたニューラルネットワーク制御系の安定性検証
- Authors: Roland Schwan, Colin N. Jones, Daniel Kuhn
- Abstract要約: 本稿では,表現可能な制御ポリシの安定性検証のためのフレームワークを提案する。
提案するフレームワークは、幅広い候補ポリシーに対応するのに十分な一般性を持っている。
提案フレームワークをベースとしたオープンソースツールボックスをPythonで提案する。
- 参考スコア(独自算出の注目度): 5.811502603310248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for the stability verification of Mixed-Integer Linear
Programming (MILP) representable control policies. This framework compares a
fixed candidate policy, which admits an efficient parameterization and can be
evaluated at a low computational cost, against a fixed baseline policy, which
is known to be stable but expensive to evaluate. We provide sufficient
conditions for the closed-loop stability of the candidate policy in terms of
the worst-case approximation error with respect to the baseline policy, and we
show that these conditions can be checked by solving a Mixed-Integer Quadratic
Program (MIQP). Additionally, we demonstrate that an outer approximation of the
stability region of the candidate policy can be computed by solving an MILP.
The proposed framework is sufficiently general to accommodate a broad range of
candidate policies including ReLU Neural Networks (NNs), optimal solution maps
of parametric quadratic programs, and Model Predictive Control (MPC) policies.
We also present an open-source toolbox in Python based on the proposed
framework, which allows for the easy verification of custom NN architectures
and MPC formulations. We showcase the flexibility and reliability of our
framework in the context of a DC-DC power convertor case study and investigate
the computational complexity.
- Abstract(参考訳): 本稿では,milp(mixed-integer linear programming)表現可能な制御ポリシーの安定性検証のためのフレームワークを提案する。
このフレームワークは、効率的なパラメータ化を許容し、低い計算コストで評価できる固定候補ポリシーと、安定だが評価に費用がかかると知られている固定基準ポリシーを比較する。
我々は,基本方針に関して最悪の場合の近似誤差の観点から,候補政策の閉ループ安定性の十分条件を示し,混合整数二次プログラム (miqp) を解いて,これらの条件を検証できることを示す。
さらに、MILPを解くことで、候補ポリシーの安定性領域の外部近似を計算することができることを示す。
提案手法は,ReLUニューラルネットワーク (NN) やパラメトリック二次プログラムの最適解マップ,モデル予測制御 (MPC) ポリシなど,幅広い候補ポリシーに対応するのに十分な一般性を有している。
また,提案フレームワークに基づいたオープンソースツールボックスをPythonで提供し,カスタムNNアーキテクチャやMPCの定式化を容易に検証できるようにする。
本稿では,DC-DC電力変換器のケーススタディにおいて,我々のフレームワークの柔軟性と信頼性を示し,計算複雑性について検討する。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。
最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文 参考訳(メタデータ) (2024-08-29T06:37:16Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Reliably-stabilizing piecewise-affine neural network controllers [5.203329540700177]
モデル予測制御(MPC)ポリシーのニューラルネットワーク(NN)近似に影響を与える一般的な問題は、NNベースのコントローラの動作の下でクローズドループシステムの安定性を評価するための分析ツールがないことである。
本稿では、そのような制御器の性能を定量化したり、与えられたMPCスキームの望ましい特性を保持する最小の複雑性NNを設計するための一般的な手順を提案する。
論文 参考訳(メタデータ) (2021-11-13T20:01:43Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。