論文の概要: Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2011.10931v4
- Date: Sun, 30 May 2021 14:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 12:26:27.522142
- Title: Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator
- Title(参考訳): モデルレスリスク制約付き線形二次レギュレータの2次学習
- Authors: Feiran Zhao, Keyou You
- Abstract要約: リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本稿では,線形システムに着目したリスク対応制御系を学習するためのモデルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8629912408966145
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Risk-aware control, though with promise to tackle unexpected events, requires
a known exact dynamical model. In this work, we propose a model-free framework
to learn a risk-aware controller with a focus on the linear system. We
formulate it as a discrete-time infinite-horizon LQR problem with a state
predictive variance constraint. To solve it, we parameterize the policy with a
feedback gain pair and leverage primal-dual methods to optimize it by solely
using data. We first study the optimization landscape of the Lagrangian
function and establish the strong duality in spite of its non-convex nature.
Alongside, we find that the Lagrangian function enjoys an important local
gradient dominance property, which is then exploited to develop a convergent
random search algorithm to learn the dual function. Furthermore, we propose a
primal-dual algorithm with global convergence to learn the optimal
policy-multiplier pair. Finally, we validate our results via simulations.
- Abstract(参考訳): リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本研究では,リニアシステムに着目したリスクアウェアコントローラを学習するためのモデルフリーフレームワークを提案する。
状態予測分散制約を用いて離散時間無限水平LQR問題として定式化する。
これを解決するために,フィードバックゲインペアでポリシーをパラメータ化し,プリミティブ・デュアル法を用いてデータのみを用いて最適化する。
まず,ラグランジュ関数の最適化景観を調査し,その非凸性にも拘わらず強い双対性を確立する。
同時に、ラグランジアン関数は重要な局所勾配支配特性を享受し、二重関数を学習するために収束ランダム探索アルゴリズムを開発するために利用される。
さらに, 最適ポリシー乗算対を学習するために, 大域収束を伴う原始双対アルゴリズムを提案する。
最後に,シミュレーションにより結果の検証を行う。
関連論文リスト
- Recursive Gaussian Process State Space Model [4.572915072234487]
動作領域とGPハイパーパラメータの両方に適応可能な新しいオンラインGPSSM法を提案する。
ポイントを誘導するオンライン選択アルゴリズムは、情報的基準に基づいて開発され、軽量な学習を実現する。
合成データセットと実世界のデータセットの総合的な評価は,提案手法の精度,計算効率,適応性を示す。
論文 参考訳(メタデータ) (2024-11-22T02:22:59Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning [9.204659134755795]
深層強化学習のための線形プログラミング(LP)の定式化について検討する。
拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。
深層パラメタライズされたラグランジアン法を提案する。
論文 参考訳(メタデータ) (2021-05-20T13:08:06Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。