論文の概要: Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.20007v1
- Date: Mon, 30 Oct 2023 20:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:38:07.407830
- Title: Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement
Learning
- Title(参考訳): 強化学習におけるトンプソンサンプリングのためのベイズ回帰境界の改良
- Authors: Ahmadreza Moradipari, Mohammad Pedramfar, Modjtaba Shokrian Zini,
Vaneet Aggarwal
- Abstract要約: 我々は、トンプソン・サンプリングが様々な環境で強化学習に関わった最初のベイズ的後悔の限界を証明した。
本研究では,個別のサロゲート環境を用いて学習問題を単純化し,後続の一貫性を用いた情報比の精密な解析を行う。
- 参考スコア(独自算出の注目度): 31.999352126396904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we prove the first Bayesian regret bounds for Thompson
Sampling in reinforcement learning in a multitude of settings. We simplify the
learning problem using a discrete set of surrogate environments, and present a
refined analysis of the information ratio using posterior consistency. This
leads to an upper bound of order $\widetilde{O}(H\sqrt{d_{l_1}T})$ in the time
inhomogeneous reinforcement learning problem where $H$ is the episode length
and $d_{l_1}$ is the Kolmogorov $l_1-$dimension of the space of environments.
We then find concrete bounds of $d_{l_1}$ in a variety of settings, such as
tabular, linear and finite mixtures, and discuss how how our results are either
the first of their kind or improve the state-of-the-art.
- Abstract(参考訳): 本稿では,複数設定の強化学習におけるトンプソンサンプリングに対する最初のベイズ的後悔の限界を実証する。
本稿では,サロゲート環境の離散セットを用いた学習問題を単純化し,後方整合性を用いた情報比率の高精度解析を提案する。
これは、h$ がエピソードの長さ、$d_{l_1}$ が環境空間のコルモゴロフ $l_1-$dimensionであるような不均質な強化学習問題において、順序 $\widetilde{o}(h\sqrt{d_{l_1}t})$ の上限となる。
次に、表、線形、有限混合といった様々な設定で$d_{l_1}$の具体的な境界を見つけ、その結果がどのようにそれらの種類の最初のものであるか、それとも最先端の技術を改善するかについて議論する。
関連論文リスト
- Improved Regret of Linear Ensemble Sampling [9.410437324336275]
アンサンブルサイズを$T$とすると、線形アンサンブルサンプリングは$tildemathcalO(d3/2sqrtT)$の頻繁な残差を達成できる。
我々の貢献は、アンサンブルサンプリングの理論的な基礎を前進させ、他のランダム化探索アルゴリズムの最もよく知られた境界と一致させた。
論文 参考訳(メタデータ) (2024-11-06T14:09:11Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Optimistic Posterior Sampling for Reinforcement Learning with Few
Samples and Tight Guarantees [43.13918072870693]
強化学習(OPSRL)のための楽観的後部サンプリングアルゴリズムを提案する。
殆どの$widetildemathcalO(sqrtH3SAT)$ ignoring $textpolylog(HSAT)$ termsにおいて、高い確率で再帰的な順序境界を保証する。
我々の境界は位数$Omega(sqrtH3SAT)$の下位境界と一致し、Agrawal と Jia が提起した開問題に答える。
論文 参考訳(メタデータ) (2022-09-28T20:49:34Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Learning Halfspaces with Tsybakov Noise [50.659479930171585]
テュバコフ雑音の存在下でのハーフスペースの学習可能性について検討する。
真半空間に関して誤分類誤差$epsilon$を達成するアルゴリズムを与える。
論文 参考訳(メタデータ) (2020-06-11T14:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。