論文の概要: LQR with Tracking: A Zeroth-order Approach and Its Global Convergence
- arxiv url: http://arxiv.org/abs/2011.01815v2
- Date: Mon, 12 Apr 2021 17:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 06:20:50.802176
- Title: LQR with Tracking: A Zeroth-order Approach and Its Global Convergence
- Title(参考訳): トラッキング付きLQR:ゼロオーダーアプローチとそのグローバルコンバージェンス
- Authors: Zhaolin Ren, Aoxiao Zhong, Na Li
- Abstract要約: 対象が任意であることを許容する一般的な場合について考察し、LQR追跡問題と呼ぶ。
ゼロターゲットLQR問題と同様、LQR追跡問題も勾配優位性と局所滑らか性を満たすことを示した。
これにより、グローバル収束を実現するため、ゼロ階勾配ポリシーアルゴリズムを開発することができる。
- 参考スコア(独自算出の注目度): 8.219977628799592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been substantial recent progress on the theoretical understanding
of model-free approaches to Linear Quadratic Regulator (LQR) problems. Much
attention has been devoted to the special case when the goal is to drive the
state close to a zero target. In this work, we consider the general case where
the target is allowed to be arbitrary, which we refer to as the LQR tracking
problem. We study the optimization landscape of this problem, and show that
similar to the zero-target LQR problem, the LQR tracking problem also satisfies
gradient dominance and local smoothness properties. This allows us to develop a
zeroth-order policy gradient algorithm that achieves global convergence. We
support our arguments with numerical simulations on a linear system.
- Abstract(参考訳): 線形二次レギュレータ (LQR) 問題に対するモデルフリーアプローチの理論的理解は、近年かなり進歩している。
目標がゼロターゲットに近い状態を駆動することである場合、特別なケースに多くの注意が向けられている。
本研究では,lqr追跡問題(lqr tracking problem)と呼ばれる対象を任意にすることを許容する一般的な場合について考察する。
この問題の最適化状況について検討し、ゼロターゲットLQR問題と同様、LQR追跡問題も勾配優位性と局所滑らか性特性を満たすことを示した。
これにより、グローバル収束を実現するゼロ次ポリシー勾配アルゴリズムを開発することができる。
線形システム上での数値シミュレーションによる議論を支援する。
関連論文リスト
- Accelerated Optimization Landscape of Linear-Quadratic Regulator [0.0]
Nest-quadratic regulator (LQR) は最適制御の分野で目覚ましい問題である。
LQR のリプシッツ・ヘッセン性を示す。
オイラースキームはハイブリッド力学系を識別するために用いられる。
論文 参考訳(メタデータ) (2023-07-07T13:34:27Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - On Margin Maximization in Linear and ReLU Networks [68.8508796827237]
指数的損失やロジスティック損失で訓練された均質ネットワークでは、勾配流は最大マージン問題のKKT点に収束する。
多くの場合、KKT 点は最大マージン問題の局所的最適化でさえない。
ローカルまたはグローバルな最適化を保証できる複数の設定を識別する。
論文 参考訳(メタデータ) (2021-10-06T13:27:23Z) - Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator [0.8629912408966145]
リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本稿では,線形システムに着目したリスク対応制御系を学習するためのモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-22T04:40:15Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z) - Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-09T15:17:52Z) - Closed-loop Parameter Identification of Linear Dynamical Systems through
the Lens of Feedback Channel Coding Theory [0.0]
本稿では,ガウス過程雑音を伴う線形スカラー系の閉ループ同定の問題について考察する。
学習速度は,対応するAWGNチャネルの容量によって基本的に上界にあることを示す。
フィードバックポリシの最適設計は依然として難しいが、上限が達成される条件を導出する。
論文 参考訳(メタデータ) (2020-03-27T17:30:10Z) - Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。
まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。
次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文 参考訳(メタデータ) (2020-03-27T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。