論文の概要: Lifting the Information Ratio: An Information-Theoretic Analysis of
Thompson Sampling for Contextual Bandits
- arxiv url: http://arxiv.org/abs/2205.13924v1
- Date: Fri, 27 May 2022 12:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:46:47.232149
- Title: Lifting the Information Ratio: An Information-Theoretic Analysis of
Thompson Sampling for Contextual Bandits
- Title(参考訳): 情報比の引き上げ:文脈的バンディットに対するトンプソンサンプリングの情報理論的分析
- Authors: Gergely Neu, Julia Olkhovskaya, Matteo Papini, Ludovic Schwartz
- Abstract要約: 我々は,RussoとVan Royの情報理論的視点を,情報比という新たな概念を導入して,文脈設定に適用する。
これにより、非常に単純な証明を通じて、先行分布のエントロピーの観点から、後悔を束縛することができる。
興味深いケースは、d-次元パラメータを持つロジスティック・バンディット、K アクション、リプシッツ・ロジットであり、そこでは、シグモイドリンク関数の最小勾配に依存しない$widetildeO(sqrtdKT)$ regret上界を提供する。
- 参考スコア(独自算出の注目度): 17.470829701201435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the Bayesian regret of the renowned Thompson Sampling algorithm in
contextual bandits with binary losses and adversarially-selected contexts. We
adapt the information-theoretic perspective of Russo and Van Roy [2016] to the
contextual setting by introducing a new concept of information ratio based on
the mutual information between the unknown model parameter and the observed
loss. This allows us to bound the regret in terms of the entropy of the prior
distribution through a remarkably simple proof, and with no structural
assumptions on the likelihood or the prior. The extension to priors with
infinite entropy only requires a Lipschitz assumption on the log-likelihood. An
interesting special case is that of logistic bandits with d-dimensional
parameters, K actions, and Lipschitz logits, for which we provide a
$\widetilde{O}(\sqrt{dKT})$ regret upper-bound that does not depend on the
smallest slope of the sigmoid link function.
- Abstract(参考訳): 二元損失と逆選択された文脈を伴う文脈的バンディットにおける有名なトンプソンサンプリングアルゴリズムのベイズ的後悔について検討した。
我々は、未知のモデルパラメータと観測された損失との相互情報に基づいて情報比の新しい概念を導入することにより、russoとvan roy [2016]の情報理論的な観点を文脈設定に適用する。
これにより、非常に単純な証明を通じて、事前分布のエントロピーの観点から後悔を縛ることができ、その可能性や事前について構造的な仮定も持たない。
無限エントロピーを持つ先行への拡張は、対数類似性に対するリプシッツの仮定のみを必要とする。
興味深いケースは、d-次元パラメータを持つロジスティック・バンディット、K 作用、リプシッツ・ロジットであり、そこでは、シグモイドリンク関数の最小勾配に依存しない、$\widetilde{O}(\sqrt{dKT})$ 後悔の上界を与える。
関連論文リスト
- Optimistic Information Directed Sampling [15.704243709119726]
本研究では、損失関数が既知のパラメトリック関数クラスに属すると仮定された文脈的帯域幅問題におけるオンライン学習の問題について検討する。
本稿では,Russo と Van Roy によるベイズ的情報指向サンプリングの理論と,決定推定係数に基づく Foster, Kakade Qian および Rakhlin (2021) の最悪のケース理論を橋渡しする新たな分析フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T16:19:32Z) - Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis [4.297070083645049]
本研究では,エージェントが真コンテキストのノイズや破損したバージョンを観測するコンテキスト線形帯域問題について検討する。
我々の目標は、託宣の「近似可能なアクションポリシー」を設計することである。
論文 参考訳(メタデータ) (2024-01-21T18:57:38Z) - Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian
rewards [44.025369660607645]
文脈帯域問題に対するトンプソンサンプリングアルゴリズムの性能について検討する。
ガウス以南の報奨に充てられる情報比率の引き上げに関する新たな限界を導入する。
論文 参考訳(メタデータ) (2023-04-26T14:40:01Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - On Thompson Sampling for Smoother-than-Lipschitz Bandits [6.929312022493406]
我々はトンプソン・サンプリングの弱い条件下での連続的な武装バンディットに対する後悔に関する最初の境界を提供する。
我々の境界は、可溶性次元の分析によって実現される。
我々は、リプシッツ微分を持つ函数の類に対するユーラダー次元の新しい境界を導出する。
論文 参考訳(メタデータ) (2020-01-08T00:46:13Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。