論文の概要: Ternary Policy Iteration Algorithm for Nonlinear Robust Control
- arxiv url: http://arxiv.org/abs/2007.06810v1
- Date: Tue, 14 Jul 2020 04:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:35:24.968894
- Title: Ternary Policy Iteration Algorithm for Nonlinear Robust Control
- Title(参考訳): 非線形ロバスト制御のための三元ポリシー反復アルゴリズム
- Authors: Jie Li, Shengbo Eben Li, Yang Guan, Jingliang Duan, Wenyu Li, Yuming
Yin
- Abstract要約: 本稿では, 境界不確実性を伴う非線形ロバスト制御問題の解法として, 3次ポリシー勾配(TPI)アルゴリズムを開発した。
提案アルゴリズムの有効性は,2つのシミュレーション研究を通して検証した。
- 参考スコア(独自算出の注目度): 12.392480840842728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The uncertainties in plant dynamics remain a challenge for nonlinear control
problems. This paper develops a ternary policy iteration (TPI) algorithm for
solving nonlinear robust control problems with bounded uncertainties. The
controller and uncertainty of the system are considered as game players, and
the robust control problem is formulated as a two-player zero-sum differential
game. In order to solve the differential game, the corresponding
Hamilton-Jacobi-Isaacs (HJI) equation is then derived. Three loss functions and
three update phases are designed to match the identity equation, minimization
and maximization of the HJI equation, respectively. These loss functions are
defined by the expectation of the approximate Hamiltonian in a generated state
set to prevent operating all the states in the entire state set concurrently.
The parameters of value function and policies are directly updated by
diminishing the designed loss functions using the gradient descent method.
Moreover, zero-initialization can be applied to the parameters of the control
policy. The effectiveness of the proposed TPI algorithm is demonstrated through
two simulation studies. The simulation results show that the TPI algorithm can
converge to the optimal solution for the linear plant, and has high resistance
to disturbances for the nonlinear plant.
- Abstract(参考訳): 植物力学の不確実性は、非線形制御問題への挑戦である。
本稿では,境界不確実性を伴う非線形ロバスト制御問題を解くための3次ポリシー反復(TPI)アルゴリズムを開発する。
コントローラとシステムの不確実性はゲームプレイヤーと見なされ、ロバスト制御問題は2つのプレイヤーゼロサム差分ゲームとして定式化される。
微分ゲームを解くために、対応するhamilton-jacobi-isaacs(hji)方程式が導出される。
3つの損失関数と3つの更新フェーズは、それぞれHJI方程式の恒等式、最小化、最大化に対応するように設計されている。
これらの損失関数は、全状態が同時に設定されるのを防ぐために生成された状態集合における近似ハミルトン状態の期待によって定義される。
勾配降下法を用いて設計した損失関数を小さくすることで、値関数とポリシーのパラメータを直接更新する。
さらに、制御ポリシのパラメータにもゼロ初期化を適用することができる。
提案アルゴリズムの有効性は2つのシミュレーション研究を通して実証した。
シミュレーションの結果, tpiアルゴリズムは線形プラントの最適解に収束し, 非線形プラントの外乱に対する高い抵抗を持つことがわかった。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Value Approximation for Two-Player General-Sum Differential Games with State Constraints [24.012924492073974]
Hamilton-Jacobi-Isaacs (HJI) PDEを数値的に解くことで、2プレイヤー差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。
物理インフォームドニューラルネットワーク(PINN)は、PDEの解決においてCoDを緩和する可能性を示しているが、バニラPINNはサンプリングの性質から不連続な解を学ぶのに不足している。
本研究では,(1)監督均衡とHJI PDEの両方が指導するハイブリッド学習手法,(2)価値硬化手法の3つの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-28T04:58:41Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Neural ODEs as Feedback Policies for Nonlinear Optimal Control [1.8514606155611764]
ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:19:26Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Concurrent Learning Based Tracking Control of Nonlinear Systems using
Gaussian Process [2.7930955543692817]
本稿では,パラメータ推定ツールとしての並列学習と,オンライン外乱学習における非パラメトリックガウス過程の適用性を示す。
制御法則は、フィードバック線形化の文脈において、両方の手法を逐次的に用いて開発される。
n階系の閉ループ系安定性はリャプノフ安定性定理を用いて証明される。
論文 参考訳(メタデータ) (2021-06-02T02:59:48Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。