論文の概要: Imitation Learning of Stabilizing Policies for Nonlinear Systems
- arxiv url: http://arxiv.org/abs/2109.10854v1
- Date: Wed, 22 Sep 2021 17:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:33:29.020839
- Title: Imitation Learning of Stabilizing Policies for Nonlinear Systems
- Title(参考訳): 非線形システムの安定化ポリシーの模倣学習
- Authors: Sebastian East
- Abstract要約: 線形システムやコントローラ向けに開発された手法は,平方の和を用いて容易にコントローラに拡張できることが示されている。
予測勾配降下法とアルゴリズムの交互方向法を, 安定化模倣学習問題に対して提案する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a recent interest in imitation learning methods that are
guaranteed to produce a stabilizing control law with respect to a known system.
Work in this area has generally considered linear systems and controllers, for
which stabilizing imitation learning takes the form of a biconvex optimization
problem. In this paper it is demonstrated that the same methods developed for
linear systems and controllers can be readily extended to polynomial systems
and controllers using sum of squares techniques. A projected gradient descent
algorithm and an alternating direction method of multipliers algorithm are
proposed as heuristics for solving the stabilizing imitation learning problem,
and their performance is illustrated through numerical experiments.
- Abstract(参考訳): 近年、既知のシステムに関して安定化制御則を定式化することが保証されている模倣学習法への関心が高まっている。
この領域での作業は一般に線形システムやコントローラを考慮し、模倣学習の安定化は二凸最適化の問題の形を取る。
本稿では,線形システムやコントローラ用に開発された同じ手法を,平方法の和を用いて多項式系やコントローラに容易に拡張できることを実証する。
安定化模倣学習問題を解くためのヒューリスティックとして,乗算アルゴリズムの投影勾配降下アルゴリズムと交互方向法を提案し,その性能を数値実験により示す。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Stochastic Reinforcement Learning with Stability Guarantees for Control of Unknown Nonlinear Systems [6.571209126567701]
本稿では,力学の局所線形表現を学習することでシステムを安定化する強化学習アルゴリズムを提案する。
本稿では,いくつかの高次元力学系におけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2024-09-12T20:07:54Z) - Differentially Flat Learning-based Model Predictive Control Using a
Stability, State, and Input Constraining Safety Filter [10.52705437098686]
学習に基づく最適制御アルゴリズムは、過去の軌跡データとシステムダイナミクスの学習モデルを用いて未知のシステムを制御する。
本稿では、微分平坦性を利用して、最先端の学習ベースコントローラに類似した性能を実現する非線形制御器を提案する。
論文 参考訳(メタデータ) (2023-07-20T02:42:23Z) - Learning over All Stabilizing Nonlinear Controllers for a
Partially-Observed Linear System [4.3012765978447565]
線形力学系に対する非線形出力フィードバックコントローラのパラメータ化を提案する。
提案手法は, 制約を満たすことなく, 部分的に観測可能な線形力学系の閉ループ安定性を保証する。
論文 参考訳(メタデータ) (2021-12-08T10:43:47Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Average Cost Optimal Control of Stochastic Systems Using Reinforcement
Learning [0.19036571490366497]
本稿では,Q関数のカーネル行列を推定するオンライン学習手法を提案する。
得られた制御ゲインとカーネルマトリックスは最適に収束することが証明された。
論文 参考訳(メタデータ) (2020-10-13T08:51:06Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Active Learning for Nonlinear System Identification with Guarantees [102.43355665393067]
状態遷移が既知の状態-作用対の特徴埋め込みに線形に依存する非線形力学系のクラスについて検討する。
そこで本稿では, トラジェクティブ・プランニング, トラジェクティブ・トラッキング, システムの再推定という3つのステップを繰り返すことで, この問題を解決するためのアクティブ・ラーニング・アプローチを提案する。
本手法は, 非線形力学系を標準線形回帰の統計速度と同様, パラメトリック速度で推定する。
論文 参考訳(メタデータ) (2020-06-18T04:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。