論文の概要: Model-free Posterior Sampling via Learning Rate Randomization
- arxiv url: http://arxiv.org/abs/2310.18186v1
- Date: Fri, 27 Oct 2023 14:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:34:04.923524
- Title: Model-free Posterior Sampling via Learning Rate Randomization
- Title(参考訳): 学習率ランダム化によるモデルフリー後方サンプリング
- Authors: Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines,
Remi Munos, Alexey Naumov, Pierre Perrault, Michal Valko, Pierre Menard
- Abstract要約: 我々は、マルコフ決定過程(MDP)における後悔最小化のための新しいランダム化モデルフリーアルゴリズムであるランダム化Q-ラーニング(RandQL)を紹介する。
我々はRandQLの性能を表と表のメトリック空間設定の両方で解析する。
我々の実証的研究は、RandQLがベースライン探索環境における既存のアプローチより優れていることを示している。
- 参考スコア(独自算出の注目度): 40.06397493703451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Randomized Q-learning (RandQL), a novel
randomized model-free algorithm for regret minimization in episodic Markov
Decision Processes (MDPs). To the best of our knowledge, RandQL is the first
tractable model-free posterior sampling-based algorithm. We analyze the
performance of RandQL in both tabular and non-tabular metric space settings. In
tabular MDPs, RandQL achieves a regret bound of order
$\widetilde{\mathcal{O}}(\sqrt{H^{5}SAT})$, where $H$ is the planning horizon,
$S$ is the number of states, $A$ is the number of actions, and $T$ is the
number of episodes. For a metric state-action space, RandQL enjoys a regret
bound of order $\widetilde{\mathcal{O}}(H^{5/2} T^{(d_z+1)/(d_z+2)})$, where
$d_z$ denotes the zooming dimension. Notably, RandQL achieves optimistic
exploration without using bonuses, relying instead on a novel idea of learning
rate randomization. Our empirical study shows that RandQL outperforms existing
approaches on baseline exploration environments.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDPs)における誤り最小化のための新しいランダム化モデルフリーアルゴリズムであるランダム化Q-ラーニング(RandQL)を紹介する。
我々の知る限りでは、RandQLは最初の抽出可能なモデルなし後方サンプリングベースアルゴリズムである。
我々はRandQLの性能を表と表のメトリック空間設定の両方で解析する。
表式mdpでは、randqlは$\widetilde{\mathcal{o}}(\sqrt{h^{5}sat})$の後悔の束縛を達成し、ここで$h$は計画の地平線、$s$は状態の数、$a$はアクションの数、$t$はエピソード数である。
計量状態-作用空間に対して、RandQL は次数 $\widetilde{\mathcal{O}}(H^{5/2} T^{(d_z+1)/(d_z+2)})$ の後悔境界を楽しむ。
特に、RandQLはボーナスを使わずに楽観的な探索を実現し、代わりに学習率ランダム化という新しいアイデアに依存している。
我々の実証的研究は、RandQLがベースライン探索環境における既存のアプローチより優れていることを示している。
関連論文リスト
- Sharper Model-free Reinforcement Learning for Average-reward Markov
Decision Processes [21.77276136591518]
我々はマルコフ決定過程(MDPs)のための証明可能なモデルフリー強化学習(RL)アルゴリズムを開発した。
シミュレータ設定では,$widetildeO left(fracSAmathrmsp(h*)epsilon2+fracS2Amathrmsp(h*)epsilon2right)$サンプルを用いて,$epsilon$-optimal Policyを求める。
論文 参考訳(メタデータ) (2023-06-28T17:43:19Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Online Learning for Stochastic Shortest Path Model via Posterior
Sampling [29.289190242826688]
PSRL-SSPは、最短経路(SSP)問題に対する後方サンプリングに基づく強化学習アルゴリズムである。
これはそのような後方サンプリングアルゴリズムとしては初めてであり、これまで提案されていた楽観主義に基づくアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-06-09T18:46:39Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Randomized Exploration is Near-Optimal for Tabular MDP [45.16374124699648]
強化学習におけるThompson Sampling(TS)ライクアルゴリズムにおけるランダム化値関数を用いた探索について検討する。
1)1つのランダムシードを各エピソードで使用し、2)ベルンシュタイン型のノイズの大きさを算出すると、最悪の$widetildeOleft(HsqrtSATright)$リコールがエピソード時間非均質決定プロセスにバインドされることを示します。
論文 参考訳(メタデータ) (2021-02-19T01:42:50Z) - A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret [44.374427255708135]
無限水平平均逆マルコフ決定過程(MDP)のモデルフリーアルゴリズムである探索強化Q-ラーニング(EE-QL)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴード的な仮定なしに$O(sqrt T)$後悔を達成する最初のモデル自由学習アルゴリズムであり、対数的因子を除いて、下位境界の$T$と一致する。
論文 参考訳(メタデータ) (2020-06-08T05:09:32Z) - Frequentist Regret Bounds for Randomized Least-Squares Value Iteration [94.47472987987805]
有限水平強化学習(RL)における探索・探索ジレンマの検討
本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
論文 参考訳(メタデータ) (2019-11-01T19:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。