Fugu-MT 論文翻訳(概要): Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration

論文の概要: Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration

arxiv url: http://arxiv.org/abs/2010.12163v4
Date: Tue, 9 Nov 2021 05:34:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 21:51:01.365349
Title: Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration
Title（参考訳）: ランダム化最小二乗値反復のための最悪の再帰境界の改善
Authors: Priyank Agrawal, Jinglin Chen and Nan Jiang
Abstract要約: 1つの古典トンプソンサンプリング(TS)のようなアルゴリズム、ランダム化最小二乗値反復(RLSVI)のクリッピング変種を導入する。我々の$tildemathrmO(H2SsqrtAT)$ high-probability worst-case regret boundは、RSVIのこれまでの最もシャープな最悪の最悪の後悔境界を改善します。
参考スコア（独自算出の注目度）: 14.865713954370046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies regret minimization with randomized value functions in reinforcement learning. In tabular finite-horizon Markov Decision Processes, we introduce a clipping variant of one classical Thompson Sampling (TS)-like algorithm, randomized least-squares value iteration (RLSVI). Our $\tilde{\mathrm{O}}(H^2S\sqrt{AT})$ high-probability worst-case regret bound improves the previous sharpest worst-case regret bounds for RLSVI and matches the existing state-of-the-art worst-case TS-based regret bounds.
Abstract（参考訳）: 本稿では,強化学習における無作為値関数による後悔の最小化について検討する。表状有限ホライゾンマルコフ決定過程において,1つの古典的トンプソンサンプリング(ts)様アルゴリズム,ランダム化最小二乗値反復(rlsvi)のクリップング変種を導入する。我々の$\tilde{\mathrm{O}}(H^2S\sqrt{AT})$ High-probability worst-case regret boundはRSSVIのこれまでの最もシャープな最悪の最悪の後悔境界を改善し、既存の最先端のTSベースの後悔境界と一致する。

関連論文リスト

Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。 NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文参考訳（メタデータ） (2025-03-23T10:52:36Z)
Rising Rested Bandits: Lower Bounds and Efficient Algorithms [15.390680055166769]
本論文は、連続マルチアーマッドバンド(MAB)の分野である。我々は,腕の期待される報酬が単調に非減少性であり,結束する残留包帯の特定の症例について検討した。我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文参考訳（メタデータ） (2024-11-06T22:00:46Z)
A conversion theorem and minimax optimality for continuum contextual bandits [70.71582850199871]
本研究では,学習者が側情報ベクトルを逐次受信し,凸集合内の行動を選択する,文脈連続帯域幅問題について検討する。目標は、受信したコンテキストのすべての基盤関数を最小化することです。サブ線形の静的な後悔を達成するアルゴリズムを拡張して、サブ線形の文脈的後悔を実現することができることを示す。
論文参考訳（メタデータ） (2024-06-09T10:12:08Z)
An Equivalence Between Static and Dynamic Regret Minimization [10.812831455376218]
線形損失に対して、動的後悔最小化は、拡張決定空間における静的後悔最小化と等価であることを示す。 R_T(u_1,dots,u_T)le tildeという形式の動的後悔を保証するアルゴリズムを提供する。
論文参考訳（メタデータ） (2024-06-03T17:54:58Z)
Settling Constant Regrets in Linear Markov Decision Processes [57.34287648914407]
強化学習(RL)における絶え間ない後悔の保証について検討する。我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。 Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔と高い確率を持つ MDP に対して、$zeta$ が $tildemathcalO(Delta / (sqrtd) 以下であることを仮定する。
論文参考訳（メタデータ） (2024-04-16T17:23:19Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
Provably Efficient Exploration in Constrained Reinforcement Learning:Posterior Sampling Is All You Need [15.113053885573171]
本稿では,制約付きマルコフ決定過程(CMDP)における学習のための後方サンプリングに基づく新しいアルゴリズムを提案する。このアルゴリズムは,既存のアルゴリズムと比較して経験的に有利でありながら,ほぼ最適の後悔境界を達成している。
論文参考訳（メタデータ） (2023-09-27T15:48:36Z)
Expected Worst Case Regret via Stochastic Sequential Covering [14.834625066344582]
我々は、既知のミニマックス後悔を一般化し包含する、予想される最悪のミニマックス後悔の概念を導入する。そのようなミニマックスの後悔に対して、我々は上大域シーケンシャル被覆という新しい概念を通じて厳密な境界を確立する。対数損失と一般に混合可能な損失に対する最小限の後悔に対する厳密な境界を確立することで,本手法の有効性を実証する。
論文参考訳（メタデータ） (2022-09-09T17:31:46Z)
Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits [10.127456032874978]
線形ペイオフを伴う文脈的包帯に対する対数的後悔(多元的後悔)を証明した。コンテキストは、$sqrtT$から$polylog(T)$への後悔を減らすのに役立ちます。
論文参考訳（メタデータ） (2022-05-19T23:41:46Z)
First-Order Regret in Reinforcement Learning with Linear Function Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文参考訳（メタデータ） (2021-12-07T00:29:57Z)
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文参考訳（メタデータ） (2021-10-09T21:13:48Z)
Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文参考訳（メタデータ） (2021-02-06T15:05:14Z)
Frequentist Regret Bounds for Randomized Least-Squares Value Iteration [94.47472987987805]
有限水平強化学習(RL)における探索・探索ジレンマの検討本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
論文参考訳（メタデータ） (2019-11-01T19:48:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。