論文の概要: Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces
- arxiv url: http://arxiv.org/abs/2603.08287v1
- Date: Mon, 09 Mar 2026 12:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.898597
- Title: Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces
- Title(参考訳): 連続制御のためのガウス過程を用いた後サンプリング強化学習:非有界な状態空間に対するサブ線形回帰境界
- Authors: Hamish Flynn, Joe Watson, Ingmar Posner, Jan Peters,
- Abstract要約: ボレル・ツィレルソン・イブラギモフ・スダコフの不等式を用いて、確率の高い場合、アルゴリズムが実際に訪れた状態がほぼ安定な半径のボールに含まれることを示す。
我々の主な結果は、$widetildemathcalO(H3/2sqrt_T/HT)$に縛られたベイズ的後悔であり、$H$は地平線、$T$は時間ステップの数、$_T/H$は情報ゲインの最大値である。
- 参考スコア(独自算出の注目度): 26.738808585466867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the Bayesian regret of the Gaussian process posterior sampling reinforcement learning (GP-PSRL) algorithm. Posterior sampling is an effective heuristic for decision-making under uncertainty that has been used to develop successful algorithms for a variety of continuous control problems. However, theoretical work on GP-PSRL is limited. All known regret bounds either fail to achieve a tight dependence on a kernel-dependent quantity called the maximum information gain or fail to properly account for the fact that the set of possible system states is unbounded. Through a recursive application of the Borell-Tsirelson-Ibragimov-Sudakov inequality, we show that, with high probability, the states actually visited by the algorithm are contained within a ball of near-constant radius. To obtain tight dependence on the maximum information gain, we use the chaining method to control the regret suffered by GP-PSRL. Our main result is a Bayesian regret bound of the order $\widetilde{\mathcal{O}}(H^{3/2}\sqrt{γ_{T/H} T})$, where $H$ is the horizon, $T$ is the number of time steps and $γ_{T/H}$ is the maximum information gain. With this result, we resolve the limitations with prior theoretical work on PSRL, and provide the theoretical foundation and tools for analyzing PSRL in complex settings.
- Abstract(参考訳): 我々は,ガウス過程の後続サンプリング強化学習(GP-PSRL)アルゴリズムに対するベイズ的後悔の分析を行った。
後方サンプリングは不確実性の下での意思決定に有効なヒューリスティックであり、様々な連続制御問題に対するアルゴリズムの開発に用いられている。
しかし、GP-PSRLに関する理論的研究は限られている。
既知のすべての後悔境界は、最大情報ゲインと呼ばれるカーネル依存量への厳密な依存を達成できないか、システム状態の集合が非有界であるという事実を適切に説明できないかのいずれかである。
Borell-Tsirelson-Ibragimov-Sudakovの不等式の再帰的適用により、確率の高い場合、アルゴリズムが実際に訪れた状態は、ほぼ安定な半径の球の中に含まれていることが示される。
最大情報ゲインに厳密な依存を得るため,GP-PSRLによる後悔を抑えるために連鎖法を用いる。
我々の主な結果は、$\widetilde{\mathcal{O}}(H^{3/2}\sqrt{γ_{T/H} T})$, ここで、$H$は地平線、$T$は時間ステップの数、$γ_{T/H}$は最大情報ゲインである。
この結果から,PSRLに関する従来の理論的研究の限界を解消し,複雑な設定でPSRLを解析するための理論的基礎とツールを提供する。
関連論文リスト
- No-Regret Thompson Sampling for Finite-Horizon Markov Decision Processes with Gaussian Processes [23.128590225272575]
トンプソンサンプリング(TS)はシーケンシャルな意思決定のための強力な戦略である。
その成功にもかかわらず、TSの理論的基礎は、特に強化学習(RL)のような複雑な時間構造を持つ環境では限られている。
この研究は、RLにおけるTSの理解を前進させ、有限水平マルコフ決定過程における構造的仮定とモデル不確実性がどのようにその性能を形作るかを強調する。
論文 参考訳(メタデータ) (2025-10-23T16:44:31Z) - Improved Regret Bounds for Gaussian Process Upper Confidence Bound in Bayesian Optimization [3.6985338895569204]
ガウス過程 GP-UCB アルゴリズムは高い確率で $tildeO(sqrtT)$ cumulative regret を達成することを示す。
我々の分析では、平方指数核の下では$O(sqrtT ln2 T)$ regretとなる。
論文 参考訳(メタデータ) (2025-06-02T07:38:58Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。