論文の概要: Model-Free $\delta$-Policy Iteration Based on Damped Newton Method for
Nonlinear Continuous-Time H$\infty$ Tracking Control
- arxiv url: http://arxiv.org/abs/2401.12882v1
- Date: Tue, 23 Jan 2024 16:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:08:57.525327
- Title: Model-Free $\delta$-Policy Iteration Based on Damped Newton Method for
Nonlinear Continuous-Time H$\infty$ Tracking Control
- Title(参考訳): 非線形連続時間H$\infty$追跡制御のためのダンプニュートン法に基づくモデルフリー$\delta$-Policy反復
- Authors: Qi Wang
- Abstract要約: ハミルトン・ヤコビ・イザック(HJI)方程式の追跡には、割引性能関数と拡張システムを用いる。
デルタPIアルゴリズムは、一般化された追跡ベルマン方程式を反復的に解くことで、追跡HJI方程式の最適解を求めることができる。
オフラインバージョンデルタPIアルゴリズムは、システムダイナミクスの事前知識を使わずに実行できるモデルフリーのアルゴリズムである。
- 参考スコア(独自算出の注目度): 5.437645060683941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a {\delta}-PI algorithm which is based on damped Newton
method for the H{\infty} tracking control problem of unknown continuous-time
nonlinear system. A discounted performance function and an augmented system are
used to get the tracking Hamilton-Jacobi-Isaac (HJI) equation. Tracking HJI
equation is a nonlinear partial differential equation, traditional
reinforcement learning methods for solving the tracking HJI equation are mostly
based on the Newton method, which usually only satisfies local convergence and
needs a good initial guess. Based upon the damped Newton iteration operator
equation, a generalized tracking Bellman equation is derived firstly. The
{\delta}-PI algorithm can seek the optimal solution of the tracking HJI
equation by iteratively solving the generalized tracking Bellman equation.
On-policy learning and off-policy learning {\delta}-PI reinforcement learning
methods are provided, respectively. Off-policy version {\delta}-PI algorithm is
a model-free algorithm which can be performed without making use of a priori
knowledge of the system dynamics. NN-based implementation scheme for the
off-policy {\delta}-PI algorithms is shown. The suitability of the model-free
{\delta}-PI algorithm is illustrated with a nonlinear system simulation.
- Abstract(参考訳): 本稿では,未知の連続時間非線形系のh{\infty}追従制御問題に対する減衰ニュートン法に基づく {\delta}-piアルゴリズムを提案する。
ハミルトン・ヤコビ・イザック(HJI)方程式の追跡には、割引性能関数と拡張システムを用いる。
追跡HJI方程式は非線形偏微分方程式であり、追跡HJI方程式を解く従来の強化学習法は主にニュートン法に基づいている。
減衰ニュートン反復作用素方程式に基づいて、一般化された追跡ベルマン方程式を導出する。
delta}-piアルゴリズムは一般化された追跡ベルマン方程式を反復的に解いて追跡hji方程式の最適解を求めることができる。
オン・ポリシー学習とオフ・ポリシー学習 {\delta}-pi強化学習方法がそれぞれ提供される。
Off-policy version {\delta}-PI algorithmは、システム力学の事前知識を使わずに実行できるモデルフリーのアルゴリズムである。
オフポリシー {\delta}-piアルゴリズムのnnベースの実装方式を示す。
モデルフリーな {\delta}-PIアルゴリズムの適合性は非線形システムシミュレーションで示される。
関連論文リスト
- Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Solving Systems of Linear Equations: HHL from a Tensor Networks Perspective [39.58317527488534]
本稿では,HHLアルゴリズムに基づく線形方程式系の解法を,新しい四重項法を用いて提案する。
テンソルネットワーク上で量子インスパイアされたバージョンを実行し、プロジェクションのような非単体演算を行う能力を生かした。
論文 参考訳(メタデータ) (2023-09-11T08:18:41Z) - Data-driven initialization of deep learning solvers for
Hamilton-Jacobi-Bellman PDEs [3.249853429482705]
状態依存型 Riccati 方程式制御法は、まず、教師付き学習のための勾配拡張合成データセットを生成するために用いられる。
得られたモデルは、HJB PDEの残量に基づく損失関数の最小化のためのウォームスタートとなる。
論文 参考訳(メタデータ) (2022-07-19T14:34:07Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Unsupervised Reservoir Computing for Solving Ordinary Differential
Equations [1.6371837018687636]
通常の微分方程式(ODE)を満たす近似解を発見することができるエコー状態のリカレントニューラルネットワーク
ベイジアン最適化を用いて高次元ハイパーパラメータ空間における最適集合を効率よく発見し、1つの集合がロバストであり、異なる初期条件と時間範囲のODEを解くことができることを示す。
論文 参考訳(メタデータ) (2021-08-25T18:16:42Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Learning nonlinear dynamical systems from a single trajectory [102.60042167341956]
我々は、$x_t+1=sigma(Thetastarx_t)+varepsilon_t$という形の非線形力学系を学ぶアルゴリズムを導入する。
最適なサンプル複雑性と線形ランニング時間を持つ単一軌道から重み行列$Thetastar$を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-30T10:42:48Z) - Enhancement of shock-capturing methods via machine learning [0.0]
我々は不連続解を用いてPDEをシミュレートするための改良された有限体積法を開発した。
5階WENO法の結果を改善するためにニューラルネットワークを訓練する。
数値解が過度に拡散するシミュレーションにおいて,本手法はWENOよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-06T21:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。