論文の概要: Improved Worst-Case Regret Bounds for Randomized Least-Squares Value
Iteration
- arxiv url: http://arxiv.org/abs/2010.12163v4
- Date: Tue, 9 Nov 2021 05:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:51:01.365349
- Title: Improved Worst-Case Regret Bounds for Randomized Least-Squares Value
Iteration
- Title(参考訳): ランダム化最小二乗値反復のための最悪の再帰境界の改善
- Authors: Priyank Agrawal, Jinglin Chen and Nan Jiang
- Abstract要約: 1つの古典トンプソンサンプリング(TS)のようなアルゴリズム、ランダム化最小二乗値反復(RLSVI)のクリッピング変種を導入する。
我々の$tildemathrmO(H2SsqrtAT)$ high-probability worst-case regret boundは、RSVIのこれまでの最もシャープな最悪の最悪の後悔境界を改善します。
- 参考スコア(独自算出の注目度): 14.865713954370046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies regret minimization with randomized value functions in
reinforcement learning. In tabular finite-horizon Markov Decision Processes, we
introduce a clipping variant of one classical Thompson Sampling (TS)-like
algorithm, randomized least-squares value iteration (RLSVI). Our
$\tilde{\mathrm{O}}(H^2S\sqrt{AT})$ high-probability worst-case regret bound
improves the previous sharpest worst-case regret bounds for RLSVI and matches
the existing state-of-the-art worst-case TS-based regret bounds.
- Abstract(参考訳): 本稿では,強化学習における無作為値関数による後悔の最小化について検討する。
表状有限ホライゾンマルコフ決定過程において,1つの古典的トンプソンサンプリング(ts)様アルゴリズム,ランダム化最小二乗値反復(rlsvi)のクリップング変種を導入する。
我々の$\tilde{\mathrm{O}}(H^2S\sqrt{AT})$ High-probability worst-case regret boundはRSSVIのこれまでの最もシャープな最悪の最悪の後悔境界を改善し、既存の最先端のTSベースの後悔境界と一致する。
関連論文リスト
- Rising Rested Bandits: Lower Bounds and Efficient Algorithms [15.390680055166769]
本論文は、連続マルチアーマッドバンド(MAB)の分野である。
我々は,腕の期待される報酬が単調に非減少性であり,結束する残留包帯の特定の症例について検討した。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2024-11-06T22:00:46Z) - An Equivalence Between Static and Dynamic Regret Minimization [10.812831455376218]
線形損失に対して、動的後悔最小化は、拡張決定空間における静的後悔最小化と等価であることを示す。
R_T(u_1,dots,u_T)le tildeという形式の動的後悔を保証するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-06-03T17:54:58Z) - Achieving Constant Regret in Linear Markov Decision Processes [57.34287648914407]
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔を高い確率で示し、不特定度 $zeta$ が $tildemathcalO(Delta / (sqrtdH2))$ 以下であることを示す。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Expected Worst Case Regret via Stochastic Sequential Covering [14.834625066344582]
我々は、既知のミニマックス後悔を一般化し包含する、予想される最悪のミニマックス後悔の概念を導入する。
そのようなミニマックスの後悔に対して、我々は上大域シーケンシャル被覆という新しい概念を通じて厳密な境界を確立する。
対数損失と一般に混合可能な損失に対する最小限の後悔に対する厳密な境界を確立することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-09-09T17:31:46Z) - Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret
in Stochastic Contextual Linear Bandits [10.127456032874978]
線形ペイオフを伴う文脈的包帯に対する対数的後悔(多元的後悔)を証明した。
コンテキストは、$sqrtT$から$polylog(T)$への後悔を減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-05-19T23:41:46Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Frequentist Regret Bounds for Randomized Least-Squares Value Iteration [94.47472987987805]
有限水平強化学習(RL)における探索・探索ジレンマの検討
本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
論文 参考訳(メタデータ) (2019-11-01T19:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。