論文の概要: Global Convergence of Receding-Horizon Policy Search in Learning
Estimator Designs
- arxiv url: http://arxiv.org/abs/2309.04831v1
- Date: Sat, 9 Sep 2023 16:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:56:40.270433
- Title: Global Convergence of Receding-Horizon Policy Search in Learning
Estimator Designs
- Title(参考訳): 学習推定器設計における回帰水平政策探索のグローバル収束
- Authors: Xiangyuan Zhang, Saviz Mowlavi, Mouhacine Benosman, Tamer Ba\c{s}ar
- Abstract要約: 本稿では,Receding-Horizon Policy estimator (RHPG)アルゴリズムを提案する。
RHPGは、最適線形ポリシー推定器の学習において証明可能な大域収束を持つ最初のアルゴリズムである。
- 参考スコア(独自算出の注目度): 3.0811185425377743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the receding-horizon policy gradient (RHPG) algorithm, the first
PG algorithm with provable global convergence in learning the optimal linear
estimator designs, i.e., the Kalman filter (KF). Notably, the RHPG algorithm
does not require any prior knowledge of the system for initialization and does
not require the target system to be open-loop stable. The key of RHPG is that
we integrate vanilla PG (or any other policy search directions) into a dynamic
programming outer loop, which iteratively decomposes the infinite-horizon KF
problem that is constrained and non-convex in the policy parameter into a
sequence of static estimation problems that are unconstrained and
strongly-convex, thus enabling global convergence. We further provide
fine-grained analyses of the optimization landscape under RHPG and detail the
convergence and sample complexity guarantees of the algorithm. This work serves
as an initial attempt to develop reinforcement learning algorithms specifically
for control applications with performance guarantees by utilizing classic
control theory in both algorithmic design and theoretical analyses. Lastly, we
validate our theories by deploying the RHPG algorithm to learn the Kalman
filter design of a large-scale convection-diffusion model. We open-source the
code repository at \url{https://github.com/xiangyuan-zhang/LearningKF}.
- Abstract(参考訳): 我々は、最適線形推定器設計、すなわちカルマンフィルタ(KF)の学習において、証明可能な大域収束性を持つ最初のPGアルゴリズムであるReceding-Horizon Policy gradient (RHPG)アルゴリズムを導入する。
特に、rhpgアルゴリズムは初期化のためにシステムの事前知識を必要とせず、ターゲットのシステムがオープンループ安定である必要はない。
RHPGの鍵となるのは、バニラPG(または他のポリシー探索方向)を動的プログラミング外ループに組み込むことであり、これは、ポリシーパラメータの制約された非凸な無限水平KF問題を、非制約で強凸な静的推定問題列に繰り返し分解することで、大域収束を可能にする。
さらに,rhpg下での最適化景観の詳細な解析を行い,アルゴリズムの収束とサンプル複雑性の保証について詳述する。
この研究は、古典的な制御理論をアルゴリズム設計と理論解析の両方に利用することにより、性能保証付き制御アプリケーションに特化して強化学習アルゴリズムを開発するための最初の試みである。
最後に, 大規模対流拡散モデルのカルマンフィルタ設計を学習するために RHPG アルゴリズムを導入し, 理論を検証する。
私たちは、コードリポジトリを \url{https://github.com/xiangyuan-zhang/LearningKF} でオープンソース化しました。
関連論文リスト
- Convergence for Natural Policy Gradient on Infinite-State Average-Reward
Markov Decision Processes [15.89915930948668]
無限状態平均逆 MDP に対する NPG アルゴリズムの第一収束率を証明した。
大規模な待ち行列型MDPの文脈では、MaxWeightポリシーは私たちの初期政治要件を満たすのに十分であることを示す。
論文 参考訳(メタデータ) (2024-02-07T21:43:57Z) - Robust Lagrangian and Adversarial Policy Gradient for Robust Constrained
Markov Decision Processes [5.167069404528051]
本稿では,Robust Lagrangian と Adversarial RCPG の2つのアルゴリズムについて述べる。
Robust Lagrangian による RCPG は、値や制約ではなく、ラグランジアンに基づく最悪のケースダイナミクスを取り入れて RCPG を修飾する。
逆数RCPGはまた、ラグランジアンに基づいて最悪のケースのダイナミクスを定式化するが、直接的かつ漸進的に逆数ポリシーとして学習する。
論文 参考訳(メタデータ) (2023-08-22T08:24:45Z) - GQFedWAvg: Optimization-Based Quantized Federated Learning in General
Edge Computing Systems [11.177402054314674]
エッジコンピューティングにおけるフェデレートラーニング(FL)の最適実装は際立った問題であった。
一般エッジコンピューティングシステムと一様あるいは一様でない計算・通信システムとを適切に適合させることができる最適化量子化FLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-13T02:18:24Z) - Revisiting LQR Control from the Perspective of Receding-Horizon Policy
Gradient [2.1756081703276]
回帰水平政策勾配(RHPG)の観点から、離散時間線形二次規制(LQR)問題を再考する。
最適LQR解に対して安定化かつ$epsilon-closeの制御ポリシを学習するために,G の詳細なサンプル解析を行う。
論文 参考訳(メタデータ) (2023-02-25T19:16:40Z) - Learning the Kalman Filter with Fine-Grained Sample Complexity [4.301206378997673]
離散時間無限水平カルマンフィルタにおけるモデルフリーポリシー勾配法(PG法)の最初のエンドツーエンドのサンプル複雑性を開発する。
本研究の結果は, 統計的ノイズ等により状態測定が破損しうる線形力学系を制御するために, モデルフリーPG法の適用に光を当てた。
論文 参考訳(メタデータ) (2023-01-30T02:41:18Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。