論文の概要: Policy Learning of MDPs with Mixed Continuous/Discrete Variables: A Case
Study on Model-Free Control of Markovian Jump Systems
- arxiv url: http://arxiv.org/abs/2006.03116v2
- Date: Wed, 15 Jul 2020 01:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 12:51:53.135866
- Title: Policy Learning of MDPs with Mixed Continuous/Discrete Variables: A Case
Study on Model-Free Control of Markovian Jump Systems
- Title(参考訳): 混合連続・離散変数を持つMDPの政策学習:マルコフジャンプシステムのモデルフリー制御を事例として
- Authors: Joao Paulo Jansch-Porto, Bin Hu, Geir Dullerud
- Abstract要約: 本稿では、ポリシーに基づく強化学習のための新しいベンチマークとして、未知(離散時間)のMJLSを制御する問題について紹介する。
従来の線形二次レギュレータ (LQR) と比較すると,提案手法は特殊ハイブリッドMDPに繋がる。
- 参考スコア(独自算出の注目度): 3.3343656101775365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Markovian jump linear systems (MJLS) are an important class of dynamical
systems that arise in many control applications. In this paper, we introduce
the problem of controlling unknown (discrete-time) MJLS as a new benchmark for
policy-based reinforcement learning of Markov decision processes (MDPs) with
mixed continuous/discrete state variables. Compared with the traditional linear
quadratic regulator (LQR), our proposed problem leads to a special hybrid MDP
(with mixed continuous and discrete variables) and poses significant new
challenges due to the appearance of an underlying Markov jump parameter
governing the mode of the system dynamics. Specifically, the state of a MJLS
does not form a Markov chain and hence one cannot study the MJLS control
problem as a MDP with solely continuous state variable. However, one can
augment the state and the jump parameter to obtain a MDP with a mixed
continuous/discrete state space. We discuss how control theory sheds light on
the policy parameterization of such hybrid MDPs. Then we modify the widely used
natural policy gradient method to directly learn the optimal state feedback
control policy for MJLS without identifying either the system dynamics or the
transition probability of the switching parameter. We implement the
(data-driven) natural policy gradient method on different MJLS examples. Our
simulation results suggest that the natural gradient method can efficiently
learn the optimal controller for MJLS with unknown dynamics.
- Abstract(参考訳): マルコフジャンプ線形系(Markovian jump linear systems, MJLS)は、多くの制御応用において発生する力学系の重要なクラスである。
本稿では,マルコフ決定過程 (MDP) と連続/離散状態変数を混合したポリシーに基づく強化学習のための新しいベンチマークとして,未知(離散時間)のMJLSを制御する問題を紹介する。
従来の線形二次レギュレータ (lqr) と比較すると,提案する問題は(連続変数と離散変数を混合した)特別なハイブリッドmdpとなり,システムダイナミクスのモードを規定するマルコフジャンプパラメータの出現により,新たな課題が生じた。
具体的には、MJLSの状態はマルコフ連鎖を成さないので、MJLS制御問題を連続状態変数のみを持つMDPとして研究することはできない。
しかし、状態とジャンプパラメータを増大させ、混合連続/離散状態空間のMDPを得ることができる。
このようなハイブリッドMDPの政策パラメータ化に制御理論がどのように光を当てるかについて議論する。
次に,mjlsの最適状態フィードバック制御ポリシを直接学習するために,システムダイナミクスやスイッチングパラメータの遷移確率を識別することなく,広範に使用される自然政策勾配法を修正した。
異なるmjls例に対して(データ駆動)自然ポリシー勾配法を実装した。
シミュレーションの結果,自然勾配法は未知のダイナミクスを持つMJLSの最適制御を効率的に学習できることが示唆された。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Deep Learning Explicit Differentiable Predictive Control Laws for
Buildings [1.4121977037543585]
未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。
DPCは、明示的非線形モデル予測制御(MPC)から生じるマルチパラメトリックプログラミング問題に対する近似解を提供する
論文 参考訳(メタデータ) (2021-07-25T16:47:57Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。