論文の概要: Regret Minimization in Partially Observable Linear Quadratic Control
- arxiv url: http://arxiv.org/abs/2002.00082v2
- Date: Sun, 8 Mar 2020 02:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:12:53.401661
- Title: Regret Minimization in Partially Observable Linear Quadratic Control
- Title(参考訳): 部分可観測線形二次制御における後悔最小化
- Authors: Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar
- Abstract要約: モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
- 参考スコア(独自算出の注目度): 91.43582419264763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of regret minimization in partially observable linear
quadratic control systems when the model dynamics are unknown a priori. We
propose ExpCommit, an explore-then-commit algorithm that learns the model
Markov parameters and then follows the principle of optimism in the face of
uncertainty to design a controller. We propose a novel way to decompose the
regret and provide an end-to-end sublinear regret upper bound for partially
observable linear quadratic control. Finally, we provide stability guarantees
and establish a regret upper bound of $\tilde{\mathcal{O}}(T^{2/3})$ for
ExpCommit, where $T$ is the time horizon of the problem.
- Abstract(参考訳): モデルダイナミクスが未知である部分可観測線形二次制御系における後悔最小化の問題について検討する。
本研究では,モデルマルコフパラメータを学習し,コントローラ設計に不確実性に直面した楽観主義の原理に従うexpcommitを提案する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
最後に、安定保証を提供し、$t$が問題の時間軸であるexpcommitに対して$\tilde{\mathcal{o}}(t^{2/3})$の後悔の上限を確立する。
関連論文リスト
- Regret Bounds for Episodic Risk-Sensitive Linear Quadratic Regulator [5.445357652101423]
リスクに敏感な線形二次規制は、リスクに敏感な最適制御における最も基本的な問題の1つである。
簡単な最小二乗グリーディアルゴリズムを提案し、そのアルゴリズムが$widetildemathcalO(log N)$ regretを達成することを示す。
これは、エピソード的リスクに敏感な線形二次的レギュレータに対する最初の後悔の束である。
論文 参考訳(メタデータ) (2024-06-08T06:06:20Z) - Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Regret Bounds for Adaptive Nonlinear Control [14.489004143703825]
条件の不確実性を考慮した適応非線形制御のための最初の有限時間後悔境界を証明した。
モデル外乱の完全な知識を持つオラクルコントローラと比較して,一定の等価適応制御に苦しむ後悔は,期待して$widetildeO(sqrtT)$で上界となることを示す。
論文 参考訳(メタデータ) (2020-11-26T03:01:09Z) - Nonstationary Reinforcement Learning with Linear Function Approximation [19.521419943509784]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。
まず、周期的再起動を伴う最小二乗値の楽観的な修正を開発し、変動予算が分かっている場合にその動的後悔を束縛する。
非定常線型 MDP に対する最初の minimax dynamic regret lower bound を導出し、副生成物として Jin らによって未解決の線型 MDP に対する minimax regret lower bound を定めている。
論文 参考訳(メタデータ) (2020-10-08T20:07:44Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。