論文の概要: Frequentist Regret Bounds for Randomized Least-Squares Value Iteration
- arxiv url: http://arxiv.org/abs/1911.00567v6
- Date: Fri, 25 Aug 2023 07:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 18:38:08.312999
- Title: Frequentist Regret Bounds for Randomized Least-Squares Value Iteration
- Title(参考訳): ランダム化最小二乗値反復のための周波数レグレト境界
- Authors: Andrea Zanette, David Brandfonbrener, Emma Brunskill, Matteo Pirotta,
Alessandro Lazaric
- Abstract要約: 有限水平強化学習(RL)における探索・探索ジレンマの検討
本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
- 参考スコア(独自算出の注目度): 94.47472987987805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the exploration-exploitation dilemma in finite-horizon
reinforcement learning (RL). When the state space is large or continuous,
traditional tabular approaches are unfeasible and some form of function
approximation is mandatory. In this paper, we introduce an
optimistically-initialized variant of the popular randomized least-squares
value iteration (RLSVI), a model-free algorithm where exploration is induced by
perturbing the least-squares approximation of the action-value function. Under
the assumption that the Markov decision process has low-rank transition
dynamics, we prove that the frequentist regret of RLSVI is upper-bounded by
$\widetilde O(d^2 H^2 \sqrt{T})$ where $ d $ are the feature dimension, $ H $
is the horizon, and $ T $ is the total number of steps. To the best of our
knowledge, this is the first frequentist regret analysis for randomized
exploration with function approximation.
- Abstract(参考訳): 有限水平強化学習(RL)における探索・探索ジレンマについて考察する。
状態空間が大きいときや連続の場合、従来の表式アプローチは実現不可能であり、ある種の関数近似は必須である。
本稿では、ランダム化最小二乗関数の最小二乗近似を摂動することによって探索を誘導するモデルフリーなアルゴリズム、RLSVIの楽観的に初期化した変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$\widetilde O(d^2 H^2 \sqrt{T})$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ がステップの総数であることを示す。
我々の知る限りでは、これは関数近似によるランダムな探索に対する最初の頻繁な後悔分析である。
関連論文リスト
- Randomized Exploration for Reinforcement Learning with Multinomial Logistic Function Approximation [8.274693573069442]
多項ロジスティック(MNL)関数近似を用いた強化学習について検討した。
頻繁な後悔の保証を有するランダムな探索を伴う確率的効率のアルゴリズムを提案する。
数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-30T15:39:19Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Bilinear Exponential Family of MDPs: Frequentist Regret Bound with
Tractable Exploration and Planning [0.0]
本研究では,不確実な報酬と遷移を伴う連続状態行動空間におけるエピソード強化学習の課題について検討する。
我々は,未知のパラメータを学習するために,ペナライズされた最大確率推定器を用いたアルゴリズムBEF-RLSVIを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:26:49Z) - Provably Efficient Model-Free Constrained RL with Linear Function
Approximation [4.060731229044571]
我々は,大規模システムにおいても,サブリニア後悔とサブリニア制約違反を実現するための,最初のモデルフリーシミュレータフリーアルゴリズムを開発した。
本結果は,標準LSVI-UCBアルゴリズムの新たな適応により達成される。
論文 参考訳(メタデータ) (2022-06-23T17:54:31Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。