Fugu-MT 論文翻訳(概要): Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning

論文の概要: Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.20007v2
Date: Tue, 6 Feb 2024 22:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 19:46:56.837599
Title: Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning
Title（参考訳）: 強化学習におけるトンプソンサンプリングのためのベイズ回帰境界の改良
Authors: Ahmadreza Moradipari, Mohammad Pedramfar, Modjtaba Shokrian Zini, Vaneet Aggarwal
Abstract要約: 我々は、トンプソン・サンプリングが様々な環境で強化学習に関わった最初のベイズ的後悔の限界を証明した。本研究では,個別のサロゲート環境を用いて学習問題を単純化し,後続の一貫性を用いた情報比の精密な解析を行う。
参考スコア（独自算出の注目度）: 31.999352126396904
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we prove the first Bayesian regret bounds for Thompson Sampling in reinforcement learning in a multitude of settings. We simplify the learning problem using a discrete set of surrogate environments, and present a refined analysis of the information ratio using posterior consistency. This leads to an upper bound of order $\widetilde{O}(H\sqrt{d_{l_1}T})$ in the time inhomogeneous reinforcement learning problem where $H$ is the episode length and $d_{l_1}$ is the Kolmogorov $l_1-$dimension of the space of environments. We then find concrete bounds of $d_{l_1}$ in a variety of settings, such as tabular, linear and finite mixtures, and discuss how how our results are either the first of their kind or improve the state-of-the-art.
Abstract（参考訳）: 本稿では,複数設定の強化学習におけるトンプソンサンプリングに対する最初のベイズ的後悔の限界を実証する。本稿では,サロゲート環境の離散セットを用いた学習問題を単純化し,後方整合性を用いた情報比率の高精度解析を提案する。これは、h$ がエピソードの長さ、$d_{l_1}$ が環境空間のコルモゴロフ $l_1-$dimensionであるような不均質な強化学習問題において、順序 $\widetilde{o}(h\sqrt{d_{l_1}t})$ の上限となる。次に、表、線形、有限混合といった様々な設定で$d_{l_1}$の具体的な境界を見つけ、その結果がどのようにそれらの種類の最初のものであるか、それとも最先端の技術を改善するかについて議論する。

関連論文リスト

Improved Regret of Linear Ensemble Sampling [9.410437324336275]
アンサンブルサイズを$T$とすると、線形アンサンブルサンプリングは$tildemathcalO(d3/2sqrtT)$の頻繁な残差を達成できる。我々の貢献は、アンサンブルサンプリングの理論的な基礎を前進させ、他のランダム化探索アルゴリズムの最もよく知られた境界と一致させた。
論文参考訳（メタデータ） (2024-11-06T14:09:11Z)
Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文参考訳（メタデータ） (2024-06-18T08:54:04Z)
Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-07T15:03:50Z)
High-dimensional Linear Bandits with Knapsacks [7.8856737627153874]
本研究では,スパース推定をオンラインで行うハードしきい値アルゴリズムのオンライン版を開発する。以下の構造的仮定のいずれかが、よりシャープな後悔境界である$tildeO(s_0 sqrtT)$に対して十分であることを示す。副産物として、クナップサック制約を伴わない高次元のコンテキスト帯域に我々のフレームワークを適用することで、データポーラとデータリッチレジームの両方において最適な後悔率を回復する。
論文参考訳（メタデータ） (2023-11-02T15:40:33Z)
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。 V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文参考訳（メタデータ） (2023-05-01T14:00:15Z)
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T17:26:39Z)
Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and Tight Guarantees [43.13918072870693]
強化学習(OPSRL)のための楽観的後部サンプリングアルゴリズムを提案する。殆どの$widetildemathcalO(sqrtH3SAT)$ ignoring $textpolylog(HSAT)$ termsにおいて、高い確率で再帰的な順序境界を保証する。我々の境界は位数$Omega(sqrtH3SAT)$の下位境界と一致し、Agrawal と Jia が提起した開問題に答える。
論文参考訳（メタデータ） (2022-09-28T20:49:34Z)
First-Order Regret in Reinforcement Learning with Linear Function Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文参考訳（メタデータ） (2021-12-07T00:29:57Z)
Doubly robust Thompson sampling for linear payoffs [12.375561840897742]
本稿では,Douubly Robust (DR) Thompson Sampling と呼ばれる新しいマルチアームコンテキスト帯域幅アルゴリズムを提案する。提案アルゴリズムは, 新たな補遺分解を許容し, $tildeO(phi-2sqrtT)$の順序で補遺を改良する。
論文参考訳（メタデータ） (2021-02-01T23:31:10Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)
Learning Halfspaces with Tsybakov Noise [50.659479930171585]
テュバコフ雑音の存在下でのハーフスペースの学習可能性について検討する。真半空間に関して誤分類誤差$epsilon$を達成するアルゴリズムを与える。
論文参考訳（メタデータ） (2020-06-11T14:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。