論文の概要: Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems
- arxiv url: http://arxiv.org/abs/2309.08880v1
- Date: Sat, 16 Sep 2023 05:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:53:30.843011
- Title: Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems
- Title(参考訳): リアルタイムかつ効率的な強化学習アルゴリズムを用いたデータ駆動型Hインフィニティ制御:自律型モビリティ・オン・デスマンドシステムへの応用
- Authors: Ali Aalipour and Alireza Khani
- Abstract要約: 本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
- 参考スコア(独自算出の注目度): 3.5897534810405403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) is a class of artificial intelligence algorithms
being used to design adaptive optimal controllers through online learning. This
paper presents a model-free, real-time, data-efficient Q-learning-based
algorithm to solve the H$_{\infty}$ control of linear discrete-time systems.
The computational complexity is shown to reduce from
$\mathcal{O}(\underline{q}^3)$ in the literature to
$\mathcal{O}(\underline{q}^2)$ in the proposed algorithm, where $\underline{q}$
is quadratic in the sum of the size of state variables, control inputs, and
disturbance. An adaptive optimal controller is designed and the parameters of
the action and critic networks are learned online without the knowledge of the
system dynamics, making the proposed algorithm completely model-free. Also, a
sufficient probing noise is only needed in the first iteration and does not
affect the proposed algorithm. With no need for an initial stabilizing policy,
the algorithm converges to the closed-form solution obtained by solving the
Riccati equation. A simulation study is performed by applying the proposed
algorithm to real-time control of an autonomous mobility-on-demand (AMoD)
system for a real-world case study to evaluate the effectiveness of the
proposed algorithm.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、オンライン学習を通じて最適なコントローラを設計するために使用される人工知能アルゴリズムのクラスである。
本稿では,線形離散時間系のH$_{\infty}$制御を解くために,モデルフリー,リアルタイム,データ効率のQ学習に基づくアルゴリズムを提案する。
計算複雑性は文献では$\mathcal{o}(\underline{q}^3)$ から、提案されたアルゴリズムでは$\mathcal{o}(\underline{q}^2)$ となる。
適応最適制御器を設計し、動作パラメータと批評家ネットワークのパラメータをシステムダイナミクスの知識なしにオンラインで学習し、提案アルゴリズムを完全にモデルフリーにする。
また、十分な検出ノイズは最初のイテレーションでのみ必要であり、提案アルゴリズムには影響を与えない。
初期安定化ポリシーを必要とせず、アルゴリズムはリッカティ方程式を解くことで得られる閉形式解に収束する。
提案手法の有効性を評価するために,提案アルゴリズムを実世界における自律移動オンデマンドシステム(amod)のリアルタイム制御に適用し,シミュレーション実験を行った。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Average Cost Optimal Control of Stochastic Systems Using Reinforcement
Learning [0.19036571490366497]
本稿では,Q関数のカーネル行列を推定するオンライン学習手法を提案する。
得られた制御ゲインとカーネルマトリックスは最適に収束することが証明された。
論文 参考訳(メタデータ) (2020-10-13T08:51:06Z) - Model-free optimal control of discrete-time systems with additive and
multiplicative noises [1.656520517245166]
本稿では,加法的および乗法的雑音を受ける離散時間系のクラスに対する最適制御問題について検討する。
システム状態と入力のデータを用いて最適許容制御ポリシーを学習するために,モデルフリー強化学習アルゴリズムを提案する。
学習アルゴリズムは最適許容制御ポリシーに収束することが証明された。
論文 参考訳(メタデータ) (2020-08-20T02:18:00Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。