論文の概要: No-Regret Thompson Sampling for Finite-Horizon Markov Decision Processes with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2510.20725v1
- Date: Thu, 23 Oct 2025 16:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.42318
- Title: No-Regret Thompson Sampling for Finite-Horizon Markov Decision Processes with Gaussian Processes
- Title(参考訳): ガウス過程を用いた有限水平マルコフ決定過程の非回帰トンプソンサンプリング
- Authors: Jasmine Bayrooti, Sattar Vakili, Amanda Prorok, Carl Henrik Ek,
- Abstract要約: トンプソンサンプリング(TS)はシーケンシャルな意思決定のための強力な戦略である。
その成功にもかかわらず、TSの理論的基礎は、特に強化学習(RL)のような複雑な時間構造を持つ環境では限られている。
この研究は、RLにおけるTSの理解を前進させ、有限水平マルコフ決定過程における構造的仮定とモデル不確実性がどのようにその性能を形作るかを強調する。
- 参考スコア(独自算出の注目度): 23.128590225272575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thompson sampling (TS) is a powerful and widely used strategy for sequential decision-making, with applications ranging from Bayesian optimization to reinforcement learning (RL). Despite its success, the theoretical foundations of TS remain limited, particularly in settings with complex temporal structure such as RL. We address this gap by establishing no-regret guarantees for TS using models with Gaussian marginal distributions. Specifically, we consider TS in episodic RL with joint Gaussian process (GP) priors over rewards and transitions. We prove a regret bound of $\mathcal{\tilde{O}}(\sqrt{KH\Gamma(KH)})$ over $K$ episodes of horizon $H$, where $\Gamma(\cdot)$ captures the complexity of the GP model. Our analysis addresses several challenges, including the non-Gaussian nature of value functions and the recursive structure of Bellman updates, and extends classical tools such as the elliptical potential lemma to multi-output settings. This work advances the understanding of TS in RL and highlights how structural assumptions and model uncertainty shape its performance in finite-horizon Markov Decision Processes.
- Abstract(参考訳): トンプソンサンプリング(TS)は、ベイズ最適化から強化学習(RL)まで、逐次決定のための強力で広く使われている戦略である。
その成功にもかかわらず、TSの理論的基礎は、特にRLのような複雑な時間構造を持つ環境では限られている。
ガウス境界分布を持つモデルを用いて、TSの非レグレット保証を確立することにより、このギャップに対処する。
具体的には、報酬と遷移について、共同ガウス過程(GP)に先行するエピソードRLにおけるTSを考察する。
我々は、$\mathcal{\tilde{O}}(\sqrt{KH\Gamma(KH)})$ over $K$ episodes of horizon $H$, where $\Gamma(\cdot)$がGPモデルの複雑さを捉えていることを証明している。
本分析では,非ガウス的な値関数の性質やベルマン更新の帰納的構造などの課題に対処し,楕円型潜在的な補題のような古典的なツールを多出力設定に拡張する。
この研究は、RLにおけるTSの理解を前進させ、有限水平マルコフ決定過程における構造的仮定とモデル不確実性がどのようにその性能を形作るかを強調する。
関連論文リスト
- Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z) - Scalable Thompson Sampling using Sparse Gaussian Process Models [9.460149673477153]
ガウス過程(GP)モデルからのトンプソンサンプリング(TS)はブラックボックス関数の最適化のための強力なツールである。
分散GPモデルに基づくスケーラブルTS法は、TSのスコープを増やすために提案されている。
理論的な保証と,拡張性TSの計算複雑性の劇的な低減が,標準TSに対する後悔性能を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2020-06-09T15:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。