論文の概要: Fully Adaptive Regret-Guaranteed Algorithm for Control of Linear Quadratic Systems
- arxiv url: http://arxiv.org/abs/2406.07746v1
- Date: Tue, 11 Jun 2024 22:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 20:56:21.827365
- Title: Fully Adaptive Regret-Guaranteed Algorithm for Control of Linear Quadratic Systems
- Title(参考訳): 線形二次系制御のための完全適応レギュレット保証アルゴリズム
- Authors: Jafar Abbaszadeh Chekan, Cedric Langbort,
- Abstract要約: 線形二次制御問題に対する最初のアルゴリズムは$mathcalO(sqrtT)$を後悔している。
政策更新数を制御(探索・探索トレードオフを調整する)する最初の完全適応型アルゴリズムを提案する。
我々は、慎重に探索・探索のトレードオフ調整を行うことで、強いシーケンシャルな安定性という広く使われている概念にコミットする必要はないことを示す。
- 参考スコア(独自算出の注目度): 0.2455468619225742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The first algorithm for the Linear Quadratic (LQ) control problem with an unknown system model, featuring a regret of $\mathcal{O}(\sqrt{T})$, was introduced by Abbasi-Yadkori and Szepesv\'ari (2011). Recognizing the computational complexity of this algorithm, subsequent efforts (see Cohen et al. (2019), Mania et al. (2019), Faradonbeh et al. (2020a), and Kargin et al.(2022)) have been dedicated to proposing algorithms that are computationally tractable while preserving this order of regret. Although successful, the existing works in the literature lack a fully adaptive exploration-exploitation trade-off adjustment and require a user-defined value, which can lead to overall regret bound growth with some factors. In this work, noticing this gap, we propose the first fully adaptive algorithm that controls the number of policy updates (i.e., tunes the exploration-exploitation trade-off) and optimizes the upper-bound of regret adaptively. Our proposed algorithm builds on the SDP-based approach of Cohen et al. (2019) and relaxes its need for a horizon-dependant warm-up phase by appropriately tuning the regularization parameter and adding an adaptive input perturbation. We further show that through careful exploration-exploitation trade-off adjustment there is no need to commit to the widely-used notion of strong sequential stability, which is restrictive and can introduce complexities in initialization.
- Abstract(参考訳): 未知の系モデルを持つ線形二次(LQ)制御問題に対する最初のアルゴリズムは、Abbasi-Yadkori と Szepesv\'ari (2011) によって導入された$\mathcal{O}(\sqrt{T})$の後悔を特徴とするものである。
このアルゴリズムの計算複雑性を認識して、その後の取り組み(Cohen et al (2019)、Mania et al (2019)、Faradonbeh et al (2020a)、Kargin et al (2022))は、この後悔の順序を保ちながら計算的に抽出可能なアルゴリズムの提案に費やされている。
文献における既存の研究は、完全に適応的な探索・探索のトレードオフ調整を欠き、ユーザ定義の値が必要であり、いくつかの要因で全体的な後悔と結びついた成長につながる可能性がある。
本研究は,このギャップに気付き,ポリシー更新数(すなわち探索・探索トレードオフの調整)を制御し,後悔の上限を適応的に最適化する,最初の完全適応アルゴリズムを提案する。
提案アルゴリズムは、Cohen et al (2019) の SDP に基づくアプローチに基づいており、正規化パラメータを適切に調整し、適応的な入力摂動を追加することにより、水平依存ウォームアップフェーズの必要性を緩和する。
さらに、慎重な探索・探索トレードオフ調整により、厳密なシーケンシャル安定性という概念にコミットする必要がなく、初期化の複雑さを生じさせる可能性があることを示す。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Global Convergence of Receding-Horizon Policy Search in Learning
Estimator Designs [3.0811185425377743]
本稿では,Receding-Horizon Policy estimator (RHPG)アルゴリズムを提案する。
RHPGは、最適線形ポリシー推定器の学習において証明可能な大域収束を持つ最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-09-09T16:03:49Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Projection-free Adaptive Regret with Membership Oracles [31.422532403048738]
ほとんどの反復アルゴリズムは凸集合への射影の計算を必要とし、計算コストがかかる。
GK22による最近の研究は、フランク・ウルフのアプローチに基づく射影自由アルゴリズムによる準線形適応的後悔の保証を与えた。
我々はMhammedi22にインスパイアされた異なる手法に基づくプロジェクションフリーなアルゴリズムを提案し、プロジェクションをセットメンバーシップ計算で置き換える。
論文 参考訳(メタデータ) (2022-11-22T23:53:06Z) - ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive
Non-Stationary Dueling Bandits [20.128001589147512]
本研究では,非定常デュエル帯域の問題について検討し,この問題に対する適応的動的後悔アルゴリズムを提案する。
ほぼ最適の $tildeO(sqrtStexttCW T)$ dynamic regret bound を示します。
論文 参考訳(メタデータ) (2022-10-25T20:26:02Z) - Planning and Learning with Adaptive Lookahead [74.39132848733847]
ポリシーイテレーション(PI)アルゴリズムは、欲求の一段階の改善と政策評価を交互に行う。
近年の文献では、複数段階のルックアヘッドポリシーの改善が、イテレーション毎の複雑さの増加を犠牲にして、よりコンバージェンス率の向上につながることが示されている。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法を初めて提案する。
論文 参考訳(メタデータ) (2022-01-28T20:26:55Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - An Efficient Algorithm for Cooperative Semi-Bandits [0.0]
本稿では,有名なFollow The Perturbed Leaderアルゴリズムの協調バージョンであるCoop-FTPLを紹介する。
T 時間ステップ後のアルゴリズムの期待された後悔は QT log(k)(k$alpha$ 1 /Q + m) であり、Q は総アクティベーション確率質量である。
論文 参考訳(メタデータ) (2020-10-05T07:08:26Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。