論文の概要: Stabilizing reinforcement learning control: A modular framework for optimizing over all stable behavior
- arxiv url: http://arxiv.org/abs/2310.14098v2
- Date: Thu, 21 Mar 2024 22:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:40:07.985834
- Title: Stabilizing reinforcement learning control: A modular framework for optimizing over all stable behavior
- Title(参考訳): 強化学習制御の安定化:全ての安定動作を最適化するためのモジュラーフレームワーク
- Authors: Nathan P. Lawrence, Philip D. Loewen, Shuyuan Wang, Michael G. Forbes, R. Bhushan Gopaluni,
- Abstract要約: 本稿では,深層強化学習の最適化駆動とモデルフリーの利点と安定性の保証を組み合わせたフィードバックコントローラ設計のためのフレームワークを提案する。
近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となった。
ノイズの存在下でのそのようなデータ駆動モデルの安定性を解析する。
- 参考スコア(独自算出の注目度): 2.4641488282873225
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a framework for the design of feedback controllers that combines the optimization-driven and model-free advantages of deep reinforcement learning with the stability guarantees provided by using the Youla-Kucera parameterization to define the search domain. Recent advances in behavioral systems allow us to construct a data-driven internal model; this enables an alternative realization of the Youla-Kucera parameterization based entirely on input-output exploration data. Perhaps of independent interest, we formulate and analyze the stability of such data-driven models in the presence of noise. The Youla-Kucera approach requires a stable "parameter" for controller design. For the training of reinforcement learning agents, the set of all stable linear operators is given explicitly through a matrix factorization approach. Moreover, a nonlinear extension is given using a neural network to express a parameterized set of stable operators, which enables seamless integration with standard deep learning libraries. Finally, we show how these ideas can also be applied to tune fixed-structure controllers.
- Abstract(参考訳): そこで本研究では,Youla-Kuceraパラメタ化を用いて探索領域を定義することにより,深層強化学習の最適化とモデルフリーの利点を両立させるフィードバックコントローラ設計のためのフレームワークを提案する。
近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となり,入力出力探索データに基づくYoula-Kuceraパラメータ化の代替実現が可能となった。
多分独立した関心を持つので、ノイズの存在下でそのようなデータ駆動モデルの安定性を定式化し分析する。
Youla-Kucera のアプローチでは、コントローラ設計には安定なパラメータが必要である。
強化学習エージェントの訓練では、全ての安定線型作用素の集合は行列分解法により明示的に与えられる。
さらに、ニューラルネットワークを用いて非線形拡張を与え、パラメータ化された安定演算子の集合を表現することにより、標準ディープラーニングライブラリとのシームレスな統合を可能にする。
最後に、これらのアイデアがどのように固定構造コントローラのチューニングにも適用できるかを示す。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - A modular framework for stabilizing deep reinforcement learning control [3.3598755777055374]
本稿では,深層強化学習の最適化駆動とモデルフリーの利点と安定性の保証を組み合わせたフィードバックコントローラ設計のためのフレームワークを提案する。
近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となった。
これにより、入力出力探索データに基づくYoula-Kuceraパラメータ化の代替実現が可能になる。
論文 参考訳(メタデータ) (2023-04-07T00:09:17Z) - Learning Stable and Robust Linear Parameter-Varying State-Space Models [0.0]
本稿では,安定な線形パラメータ変化状態空間(LPV-SS)モデルの2つの直接パラメータ化について述べる。
パラメトリゼーションは直接的であるため、モデルは制約のない最適化を用いて訓練することができる。
論文 参考訳(メタデータ) (2023-04-04T14:32:07Z) - On the Forward Invariance of Neural ODEs [92.07281135902922]
本稿では,ニューラル常微分方程式(ODE)が出力仕様を満たすことを保証するための新しい手法を提案する。
提案手法では,出力仕様を学習システムのパラメータや入力の制約に変換するために,制御障壁関数のクラスを用いる。
論文 参考訳(メタデータ) (2022-10-10T15:18:28Z) - Optimisation of Structured Neural Controller Based on Continuous-Time
Policy Gradient [2.297079626504224]
本研究では、連続時間(決定論的)動的システムの非線形構造制御のためのポリシー最適化フレームワークを提案する。
提案手法は、関連する科学的知識に基づいて、コントローラの構造を規定する。
航空宇宙応用に関する数値実験は、構造化非線形コントローラ最適化フレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2022-01-17T08:06:19Z) - Learning Stable Koopman Embeddings [9.239657838690228]
本稿では,非線形システムの安定モデル学習のための新しいデータ駆動手法を提案する。
離散時間非線形契約モデルはすべて、我々のフレームワークで学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-13T05:44:13Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。