論文の概要: Two-Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion
- arxiv url: http://arxiv.org/abs/2506.01356v1
- Date: Mon, 02 Jun 2025 06:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.282645
- Title: Two-Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion
- Title(参考訳): Zubovサンプリングと反復領域拡張による安定化ニューラルコントローラの2段階学習
- Authors: Haoyu Li, Xiangru Zhong, Bin Hu, Huan Zhang,
- Abstract要約: 連続時間システムのための制御器とリアプノフ関数を協調的に合成する新しい2段階学習フレームワークを提案する。
SMTソルバに頼ってリアプノフ条件を正式に検証する既存のシステムとは異なり、最先端のニューラルネットワーク検証器$alpha,!
- 参考スコア(独自算出の注目度): 17.905596843865705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based neural network (NN) control policies have shown impressive empirical performance. However, obtaining stability guarantees and estimations of the region of attraction of these learned neural controllers is challenging due to the lack of stable and scalable training and verification algorithms. Although previous works in this area have achieved great success, much conservatism remains in their framework. In this work, we propose a novel two-stage training framework to jointly synthesize the controller and Lyapunov function for continuous-time systems. By leveraging a Zubov-inspired region of attraction characterization to directly estimate stability boundaries, we propose a novel training data sampling strategy and a domain updating mechanism that significantly reduces the conservatism in training. Moreover, unlike existing works on continuous-time systems that rely on an SMT solver to formally verify the Lyapunov condition, we extend state-of-the-art neural network verifier $\alpha,\!\beta$-CROWN with the capability of performing automatic bound propagation through the Jacobian of dynamical systems and a novel verification scheme that avoids expensive bisection. To demonstrate the effectiveness of our approach, we conduct numerical experiments by synthesizing and verifying controllers on several challenging nonlinear systems across multiple dimensions. We show that our training can yield region of attractions with volume $5 - 1.5\cdot 10^{5}$ times larger compared to the baselines, and our verification on continuous systems can be up to $40-10000$ times faster compared to the traditional SMT solver dReal. Our code is available at https://github.com/Verified-Intelligence/Two-Stage_Neural_Controller_Training.
- Abstract(参考訳): 学習ベースニューラルネットワーク(NN)制御ポリシは、印象的な経験的パフォーマンスを示している。
しかし、安定的でスケーラブルなトレーニングと検証アルゴリズムが欠如しているため、これらの学習されたニューラルコントローラのアトラクション領域の安定性保証と推定が困難である。
この分野における以前の研究は大きな成功を収めたが、保守主義は依然としてその枠組みに残っている。
本研究では,連続時間システムのための制御器とリアプノフ関数を協調的に合成する新しい2段階学習フレームワークを提案する。
本研究では、Zubovにインスパイアされたアトラクション特性の領域を利用して、安定性境界を直接推定することにより、トレーニングにおける保守性を著しく低下させる新しいトレーニングデータサンプリング戦略とドメイン更新機構を提案する。
さらに、Lyapunov条件を正式に検証するためにSMTソルバに依存する既存の連続時間システムに関する作業とは異なり、我々は最先端のニューラルネットワーク検証を$\alpha,\!
\beta$-CROWN は、力学系のヤコビアンによる自動有界伝播を行う機能と、高価な分岐を避ける新しい検証スキームを備える。
提案手法の有効性を実証するために,複数次元にわたる難解な非線形系の制御器を合成・検証し,数値実験を行った。
トレーニングによって,5~1.5\cdot 10^{5} のアトラクション領域がベースラインよりも大きくなり,従来の SMT ソルバ dReal よりも最大40~000ドル高速に連続システムの検証を行うことができることを示す。
私たちのコードはhttps://github.com/Verified-Intelligence/Two-Stage_Neural_Controller_Trainingで利用可能です。
関連論文リスト
- Certified Training with Branch-and-Bound: A Case Study on Lyapunov-stable Neural Control [64.58719561861079]
我々は,CT-BaBという新しい,一般の認定トレーニングフレームワークを開発した。
比較的大きな関心領域を扱うために,我々は,ブランチ・アンド・バウンド(ブランチ・アンド・バウンド)のトレーニングタイムの新しい枠組みを提案する。
私たちの新しいトレーニングフレームワークは、テスト時により効率的に検証可能なモデルを生成することができることを実証しています。
論文 参考訳(メタデータ) (2024-11-27T11:12:46Z) - Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation [67.63756749551924]
学習ベースのニューラルネットワーク(NN)制御ポリシは、ロボット工学と制御の幅広いタスクにおいて、印象的な経験的パフォーマンスを示している。
非線形力学系を持つNNコントローラのトラクション領域(ROA)に対するリアプノフ安定性の保証は困難である。
我々は、高速な経験的ファルシフィケーションと戦略的正則化を用いて、Lyapunov証明書とともにNNコントローラを学習するための新しいフレームワークを実証する。
論文 参考訳(メタデータ) (2024-04-11T17:49:15Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Neural Lyapunov Control for Discrete-Time Systems [30.135651803114307]
一般的なアプローチは、リャプノフ関数と関連する制御ポリシーの組み合わせを計算することである。
ニューラルネットワークを用いてリアプノフ関数を表現するいくつかの手法が提案されている。
離散時間系におけるニューラルリアプノフ制御の学習のための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-11T03:28:20Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。