論文の概要: A relaxed technical assumption for posterior sampling-based
reinforcement learning for control of unknown linear systems
- arxiv url: http://arxiv.org/abs/2108.08502v1
- Date: Thu, 19 Aug 2021 05:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:17:54.846584
- Title: A relaxed technical assumption for posterior sampling-based
reinforcement learning for control of unknown linear systems
- Title(参考訳): 未知線形系の制御のための後方サンプリングに基づく強化学習に関する緩和的技術的仮定
- Authors: Mukul Gagrani and Sagar Sudhakara and Aditya Mahajan and Ashutosh
Nayyar and Yi Ouyang
- Abstract要約: 我々は,最近Ouyangらによって提案された未知の線形二次系(LQ)を制御するために,トンプソンサンプリングアルゴリズムを再検討する。
アルゴリズムを微修正することにより、誘導ノルムに関するこの技術的仮定は、閉ループ系のスペクトル半径の観点からより穏やかな仮定に置き換えることができることを示す。
- 参考スコア(独自算出の注目度): 5.715788333977634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the Thompson sampling algorithm to control an unknown linear
quadratic (LQ) system recently proposed by Ouyang et al (arXiv:1709.04047). The
regret bound of the algorithm was derived under a technical assumption on the
induced norm of the closed loop system. In this technical note, we show that by
making a minor modification in the algorithm (in particular, ensuring that an
episode does not end too soon), this technical assumption on the induced norm
can be replaced by a milder assumption in terms of the spectral radius of the
closed loop system. The modified algorithm has the same Bayesian regret of
$\tilde{\mathcal{O}}(\sqrt{T})$, where $T$ is the time-horizon and the
$\tilde{\mathcal{O}}(\cdot)$ notation hides logarithmic terms in~$T$.
- Abstract(参考訳): 我々は最近ouyang et al (arxiv:1709.04047) によって提案された未知の線形二次(lq)系を制御するためにトンプソンサンプリングアルゴリズムを再検討する。
アルゴリズムの後悔境界は閉ループ系の誘導ノルムに関する技術的仮定の下で導出された。
この技術的注意事項では、アルゴリズムにマイナーな修正を加える(特に、エピソードが早すぎることなく終わるようにする)ことにより、この誘導ノルムに関する技術的な仮定は、閉ループ系のスペクトル半径の観点でより穏やかな仮定に置き換えられることを示します。
修正されたアルゴリズムは、$\tilde{\mathcal{o}}(\sqrt{t})$というベイズ的後悔を持ち、ここで$t$は時間ホリゾンであり、$\tilde{\mathcal{o}}(\cdot)$は対数項を$t$で隠している。
関連論文リスト
- Approximate Thompson Sampling for Learning Linear Quadratic Regulators with $O(\sqrt{T})$ Regret [10.541541376305243]
本稿では,線形二次レギュレータ(LQR)を改良したベイズ的残差値$O(sqrtT)$で学習する近似トンプソンサンプリングアルゴリズムを提案する。
励振信号は、プレコンディショナーの最小固有値を時間とともに増加させ、近似した後方サンプリングプロセスを加速させることを示す。
論文 参考訳(メタデータ) (2024-05-29T03:24:56Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。
既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。
G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-14T14:14:19Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Squeeze All: Novel Estimator and Self-Normalized Bound for Linear
Contextual Bandits [18.971564419292893]
我々は、$O(sqrtdTlog T)$ regret boundで、$d$は文脈の次元、$T$は時間地平線であるような線形文脈的帯域幅アルゴリズムを提案する。
提案アルゴリズムは,探索を明示的ランダム化により埋め込んだ新しい推定器を備える。
論文 参考訳(メタデータ) (2022-06-11T02:43:17Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Scalable regret for learning to control network-coupled subsystems with
unknown dynamics [5.670584589057048]
相互接続されたサブシステムを見ることは、サブシステムの数とともに超直線的に増加する後悔をもたらす。
本稿では,基礎となるネットワークの構造を活かした新しいトンプソンサンプリングに基づく学習アルゴリズムを提案する。
提案アルゴリズムの期待された後悔は$tildemathcalO big(n sqrtT big)$, $n$はサブシステムの数, $T$は時間軸, $tildemathcalO(cdot)$表記は$nで対数項を隠していることを示す。
論文 参考訳(メタデータ) (2021-08-18T04:45:34Z) - Non-stationary Linear Bandits Revisited [26.082923174615495]
非定常線形帯域は、時間変化の根底にある回帰パラメータを持つ線形帯域の変種である。
これらのアルゴリズムに対して,$widetildeO(T3/4(1+P_T)1/4)$ dynamic regretを証明した。
論文 参考訳(メタデータ) (2021-03-09T10:07:17Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。