論文の概要: Q-learning with Posterior Sampling
- arxiv url: http://arxiv.org/abs/2506.00917v1
- Date: Sun, 01 Jun 2025 09:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.790406
- Title: Q-learning with Posterior Sampling
- Title(参考訳): 後部サンプリングによるQ-ラーニング
- Authors: Priyank Agrawal, Shipra Agrawal, Azmat Azati,
- Abstract要約: 本稿では,Q-値のガウス後部を探索に用いる単純なQ-ラーニングアルゴリズムであるPosterior Smpling (P=KH) を用いたQ-ラーニングを提案する。
我々は、P が $tilde O(H2sqrtSAT)$ の後悔境界を達成し、既知の $Omega(HsqrtSAT)$ の低い境界と密接に一致することを示す。
我々の研究は、後続サンプリングと動的プログラミングとTD学習に基づくRLアルゴリズムを組み合わせる上での課題に対する新たな技術的洞察を提供する。
- 参考スコア(独自算出の注目度): 3.598052011212994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian posterior sampling techniques have demonstrated superior empirical performance in many exploration-exploitation settings. However, their theoretical analysis remains a challenge, especially in complex settings like reinforcement learning. In this paper, we introduce Q-Learning with Posterior Sampling (PSQL), a simple Q-learning-based algorithm that uses Gaussian posteriors on Q-values for exploration, akin to the popular Thompson Sampling algorithm in the multi-armed bandit setting. We show that in the tabular episodic MDP setting, PSQL achieves a regret bound of $\tilde O(H^2\sqrt{SAT})$, closely matching the known lower bound of $\Omega(H\sqrt{SAT})$. Here, S, A denote the number of states and actions in the underlying Markov Decision Process (MDP), and $T=KH$ with $K$ being the number of episodes and $H$ being the planning horizon. Our work provides several new technical insights into the core challenges in combining posterior sampling with dynamic programming and TD-learning-based RL algorithms, along with novel ideas for resolving those difficulties. We hope this will form a starting point for analyzing this efficient and important algorithmic technique in even more complex RL settings.
- Abstract(参考訳): ベイジアン後方サンプリング技術は、多くの探査・探査環境において優れた経験的性能を示した。
しかし、その理論的分析は、特に強化学習のような複雑な環境では、依然として困難である。
本稿では,Q-Learning with Posterior Sampling (PSQL)について述べる。このQ-Learning with Posterior Sampling (PSQL)は,マルチアームバンディット設定におけるThompson Samplingアルゴリズムに類似した,Q-値のガウス的後進を用いた単純なQ-ラーニングアルゴリズムである。
表付きエピソード MDP 設定において、PSQL は $\tilde O(H^2\sqrt{SAT})$ の後悔境界を達成し、既知の $\Omega(H\sqrt{SAT})$ の低い境界と密接に一致することを示す。
ここで、S, Aは、基礎となるマルコフ決定過程(MDP)における状態と行動の数を表し、$T=KH$はエピソードの数、$H$は計画の地平線である。
我々の研究は、後続サンプリングと動的プログラミングとTD学習に基づくRLアルゴリズムを組み合わせ、これらの困難を解決するための新しいアイデアを取り入れた、技術的な課題に関するいくつかの新しい洞察を提供する。
より複雑なRL設定で、この効率的で重要なアルゴリズム技術を分析するための出発点となることを願っている。
関連論文リスト
- Sample-Efficient Reinforcement Learning from Human Feedback via Information-Directed Sampling [46.035795210898414]
本研究では,大規模言語モデルの学習において重要な課題である,人間からのフィードバック(RLHF)による強化学習の課題について検討する。
我々の主な貢献は、情報指向サンプリング(IDS)に基づく新しいサンプル効率RLHFアルゴリズムの設計である。
本研究は、強化学習と大規模言語モデルの訓練における情報理論の価値を示す。
論文 参考訳(メタデータ) (2025-02-08T03:47:00Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。