論文の概要: Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.20007v2
- Date: Tue, 6 Feb 2024 22:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:46:56.837599
- Title: Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement
Learning
- Title(参考訳): 強化学習におけるトンプソンサンプリングのためのベイズ回帰境界の改良
- Authors: Ahmadreza Moradipari, Mohammad Pedramfar, Modjtaba Shokrian Zini,
Vaneet Aggarwal
- Abstract要約: 我々は、トンプソン・サンプリングが様々な環境で強化学習に関わった最初のベイズ的後悔の限界を証明した。
本研究では,個別のサロゲート環境を用いて学習問題を単純化し,後続の一貫性を用いた情報比の精密な解析を行う。
- 参考スコア(独自算出の注目度): 31.999352126396904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we prove the first Bayesian regret bounds for Thompson
Sampling in reinforcement learning in a multitude of settings. We simplify the
learning problem using a discrete set of surrogate environments, and present a
refined analysis of the information ratio using posterior consistency. This
leads to an upper bound of order $\widetilde{O}(H\sqrt{d_{l_1}T})$ in the time
inhomogeneous reinforcement learning problem where $H$ is the episode length
and $d_{l_1}$ is the Kolmogorov $l_1-$dimension of the space of environments.
We then find concrete bounds of $d_{l_1}$ in a variety of settings, such as
tabular, linear and finite mixtures, and discuss how how our results are either
the first of their kind or improve the state-of-the-art.
- Abstract(参考訳): 本稿では,複数設定の強化学習におけるトンプソンサンプリングに対する最初のベイズ的後悔の限界を実証する。
本稿では,サロゲート環境の離散セットを用いた学習問題を単純化し,後方整合性を用いた情報比率の高精度解析を提案する。
これは、h$ がエピソードの長さ、$d_{l_1}$ が環境空間のコルモゴロフ $l_1-$dimensionであるような不均質な強化学習問題において、順序 $\widetilde{o}(h\sqrt{d_{l_1}t})$ の上限となる。
次に、表、線形、有限混合といった様々な設定で$d_{l_1}$の具体的な境界を見つけ、その結果がどのようにそれらの種類の最初のものであるか、それとも最先端の技術を改善するかについて議論する。
関連論文リスト
- Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Learning Thresholds with Latent Values and Censored Feedback [18.129896050051432]
未知の報酬$g(gamma, v)$が提案されたしきい値$gamma$と潜伏値$v$に依存する問題を示し、そのしきい値が未知の潜伏値よりも低い場合のみ$$を達成できる。
この問題は、オンラインオークションにおける予約価格の最適化、クラウドソーシングにおけるオンラインタスクの割り当て、雇用におけるリクルートバーの設定など、現実的なシナリオにおける幅広い応用がある。
論文 参考訳(メタデータ) (2023-12-07T19:30:08Z) - Primal-Dual Continual Learning: Stability and Plasticity through
Lagrange Multipliers [93.17404959573146]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
準最適境界を導出し、様々な連続学習ベンチマークで理論的結果を実証的に相関させる。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Bilinear Exponential Family of MDPs: Frequentist Regret Bound with
Tractable Exploration and Planning [0.0]
本研究では,不確実な報酬と遷移を伴う連続状態行動空間におけるエピソード強化学習の課題について検討する。
我々は,未知のパラメータを学習するために,ペナライズされた最大確率推定器を用いたアルゴリズムBEF-RLSVIを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:26:49Z) - Optimistic Posterior Sampling for Reinforcement Learning with Few
Samples and Tight Guarantees [43.13918072870693]
強化学習(OPSRL)のための楽観的後部サンプリングアルゴリズムを提案する。
殆どの$widetildemathcalO(sqrtH3SAT)$ ignoring $textpolylog(HSAT)$ termsにおいて、高い確率で再帰的な順序境界を保証する。
我々の境界は位数$Omega(sqrtH3SAT)$の下位境界と一致し、Agrawal と Jia が提起した開問題に答える。
論文 参考訳(メタデータ) (2022-09-28T20:49:34Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Learning Halfspaces with Tsybakov Noise [50.659479930171585]
テュバコフ雑音の存在下でのハーフスペースの学習可能性について検討する。
真半空間に関して誤分類誤差$epsilon$を達成するアルゴリズムを与える。
論文 参考訳(メタデータ) (2020-06-11T14:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。