論文の概要: Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear
Systems via Sums-of-Squares Optimization
- arxiv url: http://arxiv.org/abs/2304.12405v1
- Date: Mon, 24 Apr 2023 19:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:54:55.755771
- Title: Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear
Systems via Sums-of-Squares Optimization
- Title(参考訳): 最小二乗最適化による非線形系に対する安定還元次ビズモータポリシの合成
- Authors: Glen Chou, Russ Tedrake
- Abstract要約: 本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。
画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
- 参考スコア(独自算出の注目度): 36.65174564278564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for synthesizing dynamic, reduced-order output-feedback
polynomial control policies for control-affine nonlinear systems which
guarantees runtime stability to a goal state, when using visual observations
and a learned perception module in the feedback control loop. We leverage
Lyapunov analysis to formulate the problem of synthesizing such policies. This
problem is nonconvex in the policy parameters and the Lyapunov function that is
used to prove the stability of the policy. To solve this problem approximately,
we propose two approaches: the first solves a sequence of sum-of-squares
optimization problems to iteratively improve a policy which is provably-stable
by construction, while the second directly performs gradient-based optimization
on the parameters of the polynomial policy, and its closed-loop stability is
verified a posteriori. We extend our approach to provide stability guarantees
in the presence of observation noise, which realistically arises due to errors
in the learned perception module. We evaluate our approach on several
underactuated nonlinear systems, including pendula and quadrotors, showing that
our guarantees translate to empirical stability when controlling these systems
from images, while baseline approaches can fail to reliably stabilize the
system.
- Abstract(参考訳): フィードバック制御ループにおける視覚的観察と学習知覚モジュールを用いた場合、目標状態に対する実行時の安定性を保証する制御-アフィン非線形系に対する動的で低次出力-フィードバック多項式制御ポリシーの合成法を提案する。
我々は、リアプノフ分析を利用して、そのようなポリシーを合成する問題を定式化する。
この問題は、ポリシーの安定性を証明するために使われるポリシーパラメータとリアプノフ関数の非凸である。
この問題を解決するために,まず二乗和最適化問題の列を解き,構成によって確実に安定できる方針を反復的に改善し,また,次は多項式政策のパラメータに対して勾配に基づく最適化を行い,その閉ループ安定性を後続的に検証する。
我々は,学習知覚モジュールの誤りにより現実的に発生する観測ノイズの存在下での安定性保証を提供するためのアプローチを拡張した。
我々は,pendula や quadrotor などいくつかの非定常非線形システムに対する我々のアプローチを評価し,画像からシステムを制御する際の経験的安定性が保証されることを示した。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Neural System Level Synthesis: Learning over All Stabilizing Policies
for Nonlinear Systems [0.0]
本稿では,パラメータ最適化における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。
本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定演算子の豊富なクラスについて学習する。
論文 参考訳(メタデータ) (2022-03-22T15:22:31Z) - Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability
Guarantees [5.71097144710995]
本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。
提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
論文 参考訳(メタデータ) (2021-12-02T13:52:37Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。