論文の概要: A modular framework for stabilizing deep reinforcement learning control
- arxiv url: http://arxiv.org/abs/2304.03422v1
- Date: Fri, 7 Apr 2023 00:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:22:24.628896
- Title: A modular framework for stabilizing deep reinforcement learning control
- Title(参考訳): 深部強化学習制御の安定化のためのモジュラーフレームワーク
- Authors: Nathan P. Lawrence, Philip D. Loewen, Shuyuan Wang, Michael G. Forbes,
R. Bhushan Gopaluni
- Abstract要約: 本稿では,深層強化学習の最適化駆動とモデルフリーの利点と安定性の保証を組み合わせたフィードバックコントローラ設計のためのフレームワークを提案する。
近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となった。
これにより、入力出力探索データに基づくYoula-Kuceraパラメータ化の代替実現が可能になる。
- 参考スコア(独自算出の注目度): 3.3598755777055374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a framework for the design of feedback controllers that combines
the optimization-driven and model-free advantages of deep reinforcement
learning with the stability guarantees provided by using the Youla-Kucera
parameterization to define the search domain. Recent advances in behavioral
systems allow us to construct a data-driven internal model; this enables an
alternative realization of the Youla-Kucera parameterization based entirely on
input-output exploration data. Using a neural network to express a
parameterized set of nonlinear stable operators enables seamless integration
with standard deep learning libraries. We demonstrate the approach on a
realistic simulation of a two-tank system.
- Abstract(参考訳): 本稿では,深層強化学習の最適化駆動およびモデルフリーの利点と,youla-kuceraパラメータ化を用いた探索領域定義による安定性保証を組み合わせたフィードバック制御系設計のためのフレームワークを提案する。
近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となり,入力出力探索データに基づくYoula-Kuceraパラメータ化の代替実現が可能となった。
ニューラルネットワークを用いてパラメータ化された非線形安定演算子の集合を表現することで、標準的なディープラーニングライブラリとのシームレスな統合が可能になる。
本稿では,2タンクシステムの現実的なシミュレーションについて述べる。
関連論文リスト
- Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset [98.52916361979503]
非定常性を自動的にモデル化し適応する新しい学習手法を導入する。
非定常的・非政治的強化学習環境において,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:32:40Z) - Continual Model-based Reinforcement Learning for Data Efficient Wireless Network Optimisation [73.04087903322237]
制御ポリシの継続強化学習としてスループット最適化を定式化する。
シミュレーションの結果,提案システムでは,エンド・ツー・エンドのデプロイメントのリードタイムを2倍に短縮できることがわかった。
論文 参考訳(メタデータ) (2024-04-30T11:23:31Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - Stabilizing reinforcement learning control: A modular framework for optimizing over all stable behavior [2.4641488282873225]
本稿では,深層強化学習の最適化駆動とモデルフリーの利点と安定性の保証を組み合わせたフィードバックコントローラ設計のためのフレームワークを提案する。
近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となった。
ノイズの存在下でのそのようなデータ駆動モデルの安定性を解析する。
論文 参考訳(メタデータ) (2023-10-21T19:32:11Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - On the Forward Invariance of Neural ODEs [92.07281135902922]
本稿では,ニューラル常微分方程式(ODE)が出力仕様を満たすことを保証するための新しい手法を提案する。
提案手法では,出力仕様を学習システムのパラメータや入力の制約に変換するために,制御障壁関数のクラスを用いる。
論文 参考訳(メタデータ) (2022-10-10T15:18:28Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability
Guarantees [5.71097144710995]
本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。
提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
論文 参考訳(メタデータ) (2021-12-02T13:52:37Z) - Learning Stable Koopman Embeddings [9.239657838690228]
本稿では,非線形システムの安定モデル学習のための新しいデータ駆動手法を提案する。
離散時間非線形契約モデルはすべて、我々のフレームワークで学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-13T05:44:13Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。