論文の概要: On Thompson Sampling for Smoother-than-Lipschitz Bandits
- arxiv url: http://arxiv.org/abs/2001.02323v2
- Date: Wed, 26 Feb 2020 12:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 09:41:37.658533
- Title: On Thompson Sampling for Smoother-than-Lipschitz Bandits
- Title(参考訳): Smoother-than-Lipschitzバンドのトンプソンサンプリングについて
- Authors: James A. Grant and David S. Leslie
- Abstract要約: 我々はトンプソン・サンプリングの弱い条件下での連続的な武装バンディットに対する後悔に関する最初の境界を提供する。
我々の境界は、可溶性次元の分析によって実現される。
我々は、リプシッツ微分を持つ函数の類に対するユーラダー次元の新しい境界を導出する。
- 参考スコア(独自算出の注目度): 6.929312022493406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson Sampling is a well established approach to bandit and reinforcement
learning problems. However its use in continuum armed bandit problems has
received relatively little attention. We provide the first bounds on the regret
of Thompson Sampling for continuum armed bandits under weak conditions on the
function class containing the true function and sub-exponential observation
noise. Our bounds are realised by analysis of the eluder dimension, a recently
proposed measure of the complexity of a function class, which has been
demonstrated to be useful in bounding the Bayesian regret of Thompson Sampling
for simpler bandit problems under sub-Gaussian observation noise. We derive a
new bound on the eluder dimension for classes of functions with Lipschitz
derivatives, and generalise previous analyses in multiple regards.
- Abstract(参考訳): トンプソンサンプリングは、盗賊と強化学習問題に対する確立されたアプローチである。
しかし、連続武装バンディット問題における使用は、比較的ほとんど注目されていない。
実関数と準指数観測ノイズを含む関数クラス上で、弱い条件下での連続的な武装包帯に対するトンプソンサンプリングの後悔に関する最初の境界を与える。
我々の境界は、最近提案された関数クラスの複雑性の尺度であるeluder次元の解析によって実現され、サブガウシアン観測ノイズ下での単純なバンディット問題に対するトンプソンサンプリングのベイズ的後悔の境界として有用であることが証明されている。
我々は、リプシッツ微分を持つ函数のクラスに対するエルダー次元の新しい境界を導出し、複数の点で以前の解析を一般化する。
関連論文リスト
- Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis [4.297070083645049]
本研究では,エージェントが真コンテキストのノイズや破損したバージョンを観測するコンテキスト線形帯域問題について検討する。
我々の目標は、託宣の「近似可能なアクションポリシー」を設計することである。
論文 参考訳(メタデータ) (2024-01-21T18:57:38Z) - Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian
rewards [44.025369660607645]
文脈帯域問題に対するトンプソンサンプリングアルゴリズムの性能について検討する。
ガウス以南の報奨に充てられる情報比率の引き上げに関する新たな限界を導入する。
論文 参考訳(メタデータ) (2023-04-26T14:40:01Z) - Scalable Representation Learning in Linear Contextual Bandits with
Constant Regret Guarantees [103.69464492445779]
本稿では,スペクトル特性のよい表現を学習する表現学習アルゴリズムBanditSRLを提案する。
我々は、BanditSRLが任意の非regretアルゴリズムとペアリング可能であることを証明し、HLS表現が利用可能であれば常に後悔する。
論文 参考訳(メタデータ) (2022-10-24T10:04:54Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement
Learning [17.860102738896096]
我々はトンプソンサンプリングの理論解析を行い、頻繁な後悔境界に焦点をあてる。
我々は、トンプソンサンプリングが新しい行動の探索に十分な積極的ではないことを示し、悲観的な状況下では準最適性をもたらすことを示した。
理論的枠組みは、標準的なトンプソンサンプリングに対するベイズ的後悔境界と、Feel-Good Thompson Samplingに対する頻繁な後悔境界を導出するのに利用できることを示す。
論文 参考訳(メタデータ) (2021-10-02T20:10:40Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。