論文の概要: Improved Worst-Case Regret Bounds for Randomized Least-Squares Value
Iteration
- arxiv url: http://arxiv.org/abs/2010.12163v4
- Date: Tue, 9 Nov 2021 05:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:51:01.365349
- Title: Improved Worst-Case Regret Bounds for Randomized Least-Squares Value
Iteration
- Title(参考訳): ランダム化最小二乗値反復のための最悪の再帰境界の改善
- Authors: Priyank Agrawal, Jinglin Chen and Nan Jiang
- Abstract要約: 1つの古典トンプソンサンプリング(TS)のようなアルゴリズム、ランダム化最小二乗値反復(RLSVI)のクリッピング変種を導入する。
我々の$tildemathrmO(H2SsqrtAT)$ high-probability worst-case regret boundは、RSVIのこれまでの最もシャープな最悪の最悪の後悔境界を改善します。
- 参考スコア(独自算出の注目度): 14.865713954370046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies regret minimization with randomized value functions in
reinforcement learning. In tabular finite-horizon Markov Decision Processes, we
introduce a clipping variant of one classical Thompson Sampling (TS)-like
algorithm, randomized least-squares value iteration (RLSVI). Our
$\tilde{\mathrm{O}}(H^2S\sqrt{AT})$ high-probability worst-case regret bound
improves the previous sharpest worst-case regret bounds for RLSVI and matches
the existing state-of-the-art worst-case TS-based regret bounds.
- Abstract(参考訳): 本稿では,強化学習における無作為値関数による後悔の最小化について検討する。
表状有限ホライゾンマルコフ決定過程において,1つの古典的トンプソンサンプリング(ts)様アルゴリズム,ランダム化最小二乗値反復(rlsvi)のクリップング変種を導入する。
我々の$\tilde{\mathrm{O}}(H^2S\sqrt{AT})$ High-probability worst-case regret boundはRSSVIのこれまでの最もシャープな最悪の最悪の後悔境界を改善し、既存の最先端のTSベースの後悔境界と一致する。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - The Sliding Regret in Stochastic Bandits: Discriminating Index and
Randomized Policies [0.8158530638728501]
バンディットのためのノンレグレットアルゴリズムのワンショット動作について検討する。
一定長さが無限に滑り落ちるタイムウインドウ上で最悪の擬似回帰を測定するスライディング後悔(slide regret)という新しい概念を導入する。
論文 参考訳(メタデータ) (2023-11-30T10:37:03Z) - Provably Efficient Exploration in Constrained Reinforcement
Learning:Posterior Sampling Is All You Need [15.113053885573171]
本稿では,制約付きマルコフ決定過程(CMDP)における学習のための後方サンプリングに基づく新しいアルゴリズムを提案する。
このアルゴリズムは,既存のアルゴリズムと比較して経験的に有利でありながら,ほぼ最適の後悔境界を達成している。
論文 参考訳(メタデータ) (2023-09-27T15:48:36Z) - Expected Worst Case Regret via Stochastic Sequential Covering [14.834625066344582]
我々は、既知のミニマックス後悔を一般化し包含する、予想される最悪のミニマックス後悔の概念を導入する。
そのようなミニマックスの後悔に対して、我々は上大域シーケンシャル被覆という新しい概念を通じて厳密な境界を確立する。
対数損失と一般に混合可能な損失に対する最小限の後悔に対する厳密な境界を確立することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-09-09T17:31:46Z) - Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret
in Stochastic Contextual Linear Bandits [10.127456032874978]
線形ペイオフを伴う文脈的包帯に対する対数的後悔(多元的後悔)を証明した。
コンテキストは、$sqrtT$から$polylog(T)$への後悔を減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-05-19T23:41:46Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Frequentist Regret Bounds for Randomized Least-Squares Value Iteration [94.47472987987805]
有限水平強化学習(RL)における探索・探索ジレンマの検討
本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
論文 参考訳(メタデータ) (2019-11-01T19:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。