論文の概要: Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation
- arxiv url: http://arxiv.org/abs/2007.06482v1
- Date: Mon, 13 Jul 2020 16:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:07:09.750798
- Title: Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation
- Title(参考訳): ラグランジュ緩和による線形量子レギュレータの効率的な最適探索
- Authors: Marc Abeille and Alessandro Lazaric
- Abstract要約: 線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
- 参考スコア(独自算出の注目度): 107.06364966905821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the exploration-exploitation dilemma in the linear quadratic
regulator (LQR) setting. Inspired by the extended value iteration algorithm
used in optimistic algorithms for finite MDPs, we propose to relax the
optimistic optimization of \ofulq and cast it into a constrained
\textit{extended} LQR problem, where an additional control variable implicitly
selects the system dynamics within a confidence interval. We then move to the
corresponding Lagrangian formulation for which we prove strong duality. As a
result, we show that an $\epsilon$-optimistic controller can be computed
efficiently by solving at most $O\big(\log(1/\epsilon)\big)$ Riccati equations.
Finally, we prove that relaxing the original \ofu problem does not impact the
learning performance, thus recovering the $\tilde{O}(\sqrt{T})$ regret of
\ofulq. To the best of our knowledge, this is the first computationally
efficient confidence-based algorithm for LQR with worst-case optimal regret
guarantees.
- Abstract(参考訳): 線形2次レギュレータ(LQR)における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的なアルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て, 楽観的な最適化を緩和し, それを制約付き \textit{extended} LQR 問題に投入することを提案する。
次に、強い双対性を証明する対応するラグランジュ形式に移行する。
その結果、最大$O\big(\log(1/\epsilon)\big)$ Riccati方程式を解くことで、$\epsilon$-optimisticControllerを効率的に計算できることを示した。
最後に、元の \ofu 問題を緩和することは学習性能に影響を与えないことを証明し、$\tilde{O}(\sqrt{T})$ regret of \ofulq を回復する。
我々の知る限りでは、これはlqrに対する計算効率の良い信頼性に基づく最初のアルゴリズムであり、最悪の場合の最適後悔を保証している。
関連論文リスト
- Second Order Methods for Bandit Optimization and Control [34.51425758864638]
我々は,大規模な凸関数に対して,このアルゴリズムが最適($kappa$-2020と呼ぶ凸関数の観点で)となることを示す。
また,メモリを用いたオンライン凸最適化への2次帯域幅アルゴリズムの適用について検討した。
論文 参考訳(メタデータ) (2024-02-14T04:03:38Z) - Accelerated Optimization Landscape of Linear-Quadratic Regulator [0.0]
Nest-quadratic regulator (LQR) は最適制御の分野で目覚ましい問題である。
LQR のリプシッツ・ヘッセン性を示す。
オイラースキームはハイブリッド力学系を識別するために用いられる。
論文 参考訳(メタデータ) (2023-07-07T13:34:27Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Optimal Dynamic Regret in LQR Control [23.91519151164528]
我々は、LQR制御という2次的損失の連続を伴う非確率的制御の問題を考察する。
我々は、$tildeO(textmaxn1/3 MathcalTV(M_1:n)2/3, 1)$の最適動的(政治的)後悔を実現するオンラインアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-18T18:00:21Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。