論文の概要: Logarithmic Regret for Learning Linear Quadratic Regulators Efficiently
- arxiv url: http://arxiv.org/abs/2002.08095v2
- Date: Wed, 1 Jul 2020 20:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:09:52.021608
- Title: Logarithmic Regret for Learning Linear Quadratic Regulators Efficiently
- Title(参考訳): 線形二次レギュレータを効率的に学習するための対数的後悔
- Authors: Asaf Cassel (1), Alon Cohen (2), Tomer Koren (1) ((1) School of
Computer Science, Tel Aviv University, (2) Google Research, Tel Aviv)
- Abstract要約: 近年の研究では、意思決定ステップの平方根に後悔の念を抱く効率的な学習アルゴリズムが実証されている。
我々は、ステップ数と(多分)対数的にしかスケールしない、おそらく驚くべきことに、新しい効率的なアルゴリズムを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning in Linear Quadratic Control systems whose
transition parameters are initially unknown. Recent results in this setting
have demonstrated efficient learning algorithms with regret growing with the
square root of the number of decision steps. We present new efficient
algorithms that achieve, perhaps surprisingly, regret that scales only
(poly)logarithmically with the number of steps in two scenarios: when only the
state transition matrix $A$ is unknown, and when only the state-action
transition matrix $B$ is unknown and the optimal policy satisfies a certain
non-degeneracy condition. On the other hand, we give a lower bound that shows
that when the latter condition is violated, square root regret is unavoidable.
- Abstract(参考訳): 遷移パラメータが不明な線形二次制御系における学習の問題点を考察する。
この設定の最近の結果は、意思決定ステップの平方根に後悔を抱く効率的な学習アルゴリズムを実証している。
状態遷移行列 $a$ のみが未知であり、状態-作用遷移行列 $b$ のみが未知であり、最適なポリシーが特定の非退化条件を満たす場合である。
一方、後者の条件が破られたとき、平方根の後悔は避けられないことを示す下界を与える。
関連論文リスト
- Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Learning Adversarial Low-rank Markov Decision Processes with Unknown
Transition and Full-information Feedback [30.23951525723659]
本研究は,全情報フィードバック設定において,逆向きに損失が変化する低ランクMDPについて検討する。
政策最適化に基づくアルゴリズムPOLOを提案し、$widetildeO(Kfrac56Afrac12dln (1+M)/ (1-gamma)2)$ regret guarantee。
論文 参考訳(メタデータ) (2023-11-14T03:12:43Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Episodic Linear Quadratic Regulators with Low-rank Transitions [31.8243883890202]
本稿では,本システムの低ランク構造を効率よく学習するアルゴリズムを提案する。
我々のアルゴリズムは$K$-episode regret bound of order $widetildeO(m3/2 K1/2)$を達成する。
論文 参考訳(メタデータ) (2020-11-03T08:48:31Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。