論文の概要: Dissipative Imitation Learning for Discrete Dynamic Output Feedback
Control with Sparse Data Sets
- arxiv url: http://arxiv.org/abs/2309.06658v1
- Date: Wed, 13 Sep 2023 01:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:52:26.397288
- Title: Dissipative Imitation Learning for Discrete Dynamic Output Feedback
Control with Sparse Data Sets
- Title(参考訳): スパースデータセットを用いた離散動的出力フィードバック制御のための散逸模倣学習
- Authors: Amy K. Strong, Ethan J. LoCicero, Leila J. Bridgeman
- Abstract要約: 散逸的模倣学習のための入出力(IO)アプローチは、スパースデータによる安定性を実現する。
学習したコントローラに解離性を強制する新たな制約について検討する。
植物モデルについてはほとんど知識がないため、分離性制約付き学習コントローラは、専門家のコントローラの動作をうまく模倣する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning enables the synthesis of controllers for complex
objectives and highly uncertain plant models. However, methods to provide
stability guarantees to imitation learned controllers often rely on large
amounts of data and/or known plant models. In this paper, we explore an
input-output (IO) stability approach to dissipative imitation learning, which
achieves stability with sparse data sets and with little known about the plant
model. A closed-loop stable dynamic output feedback controller is learned using
expert data, a coarse IO plant model, and a new constraint to enforce
dissipativity on the learned controller. While the learning objective is
nonconvex, iterative convex overbounding (ICO) and projected gradient descent
(PGD) are explored as methods to successfully learn the controller. This new
imitation learning method is applied to two unknown plants and compared to
traditionally learned dynamic output feedback controller and neural network
controller. With little knowledge of the plant model and a small data set, the
dissipativity constrained learned controller achieves closed loop stability and
successfully mimics the behavior of the expert controller, while other methods
often fail to maintain stability and achieve good performance.
- Abstract(参考訳): 模倣学習は、複雑な目的と非常に不確実な植物モデルのためのコントローラの合成を可能にする。
しかし、学習したコントローラを模倣するための安定性保証を提供する方法は、しばしば大量のデータや既知の植物モデルに依存する。
本稿では,散逸的模倣学習のためのインプットアウトプット(IO)安定性アプローチについて検討する。
エキスパートデータ、粗いIOプラントモデル、学習したコントローラに拡散性を強制する新しい制約を用いて、クローズループ安定な動的出力フィードバックコントローラを学習する。
学習対象は非凸であるが, 反復凸オーバーバウンディング (ICO) と投影勾配降下 (PGD) は制御器の学習に有効である。
この新しい模倣学習法は、2つの未知の植物に適用され、従来の動的出力フィードバックコントローラとニューラルネットワークコントローラと比較される。
プラントモデルや小さなデータセットについてはほとんど知識がなく、分散性制約付き学習コントローラは閉ループ安定性を達成し、エキスパートコントローラの動作をうまく模倣するが、他の手法では安定性の維持に失敗し、良好な性能を達成することがしばしばある。
関連論文リスト
- Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Data-Driven Control with Inherent Lyapunov Stability [3.695480271934742]
本研究では,非線形力学モデルと安定化制御器のパラメトリック表現をデータから共同学習する手法として,インヒーレント・リャプノフ安定度制御(CoILS)を提案する。
新たな構成によって保証される学習力学の安定化性に加えて、学習した制御器は学習力学の忠実性に関する特定の仮定の下で真の力学を安定化することを示す。
論文 参考訳(メタデータ) (2023-03-06T14:21:42Z) - Learning Control-Oriented Dynamical Structure from Data [25.316358215670274]
一般非線形制御アフィン系に対する状態依存非線形トラッキングコントローラの定式化について論じる。
安定軌跡追跡における学習版の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-02-06T02:01:38Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Robust Model-Free Learning and Control without Prior Knowledge [1.14219428942199]
本稿では,未知の離散時間線形系を頑健に学習し,安定化するモデルフリー制御アルゴリズムを提案する。
コントローラはシステムダイナミクス、障害、ノイズに関する事前の知識を必要としない。
一般化と簡易性にもかかわらず、制御器はクローズドループ性能がよいことを示すシミュレーション結果で結論を下す。
論文 参考訳(メタデータ) (2020-10-01T05:43:33Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。