論文の概要: The Power of Linear Controllers in LQR Control
- arxiv url: http://arxiv.org/abs/2002.02574v1
- Date: Fri, 7 Feb 2020 00:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 05:12:37.126213
- Title: The Power of Linear Controllers in LQR Control
- Title(参考訳): LQR制御における線形制御のパワー
- Authors: Gautam Goel, Babak Hassibi
- Abstract要約: 我々は3つの異なる統制政策の間の後悔の政策を計算します。
最適オフライン線形ポリシーのコストは、最適オンラインポリシーのコストに収束することを示す。
ノイズの所在に焦点をあてるが, 適応的相手が雑音を選択すると, 満足できる政策に新たな下限が生じることが示唆される。
- 参考スコア(独自算出の注目度): 39.76359052907755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Linear Quadratic Regulator (LQR) framework considers the problem of
regulating a linear dynamical system perturbed by environmental noise. We
compute the policy regret between three distinct control policies: i) the
optimal online policy, whose linear structure is given by the Ricatti
equations; ii) the optimal offline linear policy, which is the best linear
state feedback policy given the noise sequence; and iii) the optimal offline
policy, which selects the globally optimal control actions given the noise
sequence. We fully characterize the optimal offline policy and show that it has
a recursive form in terms of the optimal online policy and future disturbances.
We also show that cost of the optimal offline linear policy converges to the
cost of the optimal online policy as the time horizon grows large, and
consequently the optimal offline linear policy incurs linear regret relative to
the optimal offline policy, even in the optimistic setting where the noise is
drawn i.i.d from a known distribution. Although we focus on the setting where
the noise is stochastic, our results also imply new lower bounds on the policy
regret achievable when the noise is chosen by an adaptive adversary.
- Abstract(参考訳): 線形二次レギュレータ(lqr)フレームワークは、環境騒音によって摂動する線形力学系を制御する問題を考える。
政策の後悔を3つの異なる政策間で計算します
一 線形構造がリカティ方程式により与えられる最適オンライン政策
二 雑音系列に与えられた最良の線形状態フィードバック方針である最適オフライン線形方針
三 ノイズシーケンスによつて、グローバルに最適な制御アクションを選択する、最適なオフラインポリシー。
我々は、最適オフラインポリシーを完全に特徴付け、最適オンラインポリシーと将来の混乱の観点から再帰的な形態を示す。
また、最適オフライン線形ポリシーのコストは、時間軸が大きくなるにつれて最適オンラインポリシーのコストに収束し、従って、最適なオフライン線形ポリシーは、既知の分布からノイズが引き出される楽観的な状況であっても、最適オフラインポリシーに対して線形後悔を引き起こすことを示す。
我々は,ノイズが確率的であるような設定に注目する一方で,適応的な敵によってノイズが選択されると,後悔できる方針の新たな下界を示唆する。
関連論文リスト
- Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators [11.400431211239958]
準線形2次制御系における最適速度について検討する。
本稿では、勾配アルゴリズムを用いて、グローバルな最適レートで保証されるポリシーを提案する。
論文 参考訳(メタデータ) (2023-03-15T08:08:02Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。
結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。
本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-05T17:58:33Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。