論文の概要: An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces
- arxiv url: http://arxiv.org/abs/2502.02140v1
- Date: Tue, 04 Feb 2025 09:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:54.359798
- Title: An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces
- Title(参考訳): 無限行動空間を用いたトンプソンサンプリングの情報理論解析
- Authors: Amaury Gouverneur, Borja Rodriguez Gálvez, Tobias Oechtering, Mikael Skoglund,
- Abstract要約: 本稿では,バンディット問題に対するトンプソンサンプリングアルゴリズムのベイズ的後悔について考察する。
これはRussoとVan Royが導入した情報理論フレームワークに基づいている。
- 参考スコア(独自算出の注目度): 21.008864860723175
- License:
- Abstract: This paper studies the Bayesian regret of the Thompson Sampling algorithm for bandit problems, building on the information-theoretic framework introduced by Russo and Van Roy (2015). Specifically, it extends the rate-distortion analysis of Dong and Van Roy (2018), which provides near-optimal bounds for linear bandits. A limitation of these results is the assumption of a finite action space. We address this by extending the analysis to settings with infinite and continuous action spaces. Additionally, we specialize our results to bandit problems with expected rewards that are Lipschitz continuous with respect to the action space, deriving a regret bound that explicitly accounts for the complexity of the action space.
- Abstract(参考訳): 本稿では,Russo と Van Roy (2015) が導入した情報理論の枠組みに基づいて,トンプソンサンプリングアルゴリズムのバンドイット問題に対するベイズ的後悔について考察する。
具体的には、Dong and Van Roy (2018) の速度歪み解析を拡張し、線形包帯に対して準最適境界を提供する。
これらの結果の極限は有限作用空間の仮定である。
解析を無限かつ連続的なアクション空間の設定に拡張することで、この問題に対処する。
さらに、我々は、アクション空間に関してリプシッツが連続であるような期待された報酬の問題を解き放つために、結果を専門化し、アクション空間の複雑さを明示的に説明する後悔の限界を導出する。
関連論文リスト
- An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces [54.37047702755926]
我々は完全なフィードバックの下でオンライン学習のためのトンプソンサンプリングの分析法を開発した。
我々は、後悔の分解を、学習者が先入観を期待したことを後悔させ、また、過度な後悔と呼ぶ先延ばし的な用語を示します。
論文 参考訳(メタデータ) (2025-02-20T18:10:12Z) - Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Chained Information-Theoretic bounds and Tight Regret Rate for Linear
Bandit Problems [37.82763068378491]
バンドイット問題に対するトンプソン・サンプリングアルゴリズムの変形に対する後悔について検討する。
報酬の適切な連続性仮定の下で、我々の境界は、$d$次元線形バンディット問題に対して$O(dsqrtT)$の厳密なレートを提供する。
論文 参考訳(メタデータ) (2024-03-05T23:08:18Z) - Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis [4.297070083645049]
本研究では,エージェントが真コンテキストのノイズや破損したバージョンを観測するコンテキスト線形帯域問題について検討する。
我々の目標は、託宣の「近似可能なアクションポリシー」を設計することである。
論文 参考訳(メタデータ) (2024-01-21T18:57:38Z) - Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian
rewards [44.025369660607645]
文脈帯域問題に対するトンプソンサンプリングアルゴリズムの性能について検討する。
ガウス以南の報奨に充てられる情報比率の引き上げに関する新たな限界を導入する。
論文 参考訳(メタデータ) (2023-04-26T14:40:01Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - On Thompson Sampling for Smoother-than-Lipschitz Bandits [6.929312022493406]
我々はトンプソン・サンプリングの弱い条件下での連続的な武装バンディットに対する後悔に関する最初の境界を提供する。
我々の境界は、可溶性次元の分析によって実現される。
我々は、リプシッツ微分を持つ函数の類に対するユーラダー次元の新しい境界を導出する。
論文 参考訳(メタデータ) (2020-01-08T00:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。