論文の概要: Thompson Sampling for Stochastic Bandits with Noisy Contexts: An
Information-Theoretic Regret Analysis
- arxiv url: http://arxiv.org/abs/2401.11565v1
- Date: Sun, 21 Jan 2024 18:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:11:40.602323
- Title: Thompson Sampling for Stochastic Bandits with Noisy Contexts: An
Information-Theoretic Regret Analysis
- Title(参考訳): 雑音のある確率帯域に対するトンプソンサンプリング:情報理論レグレット解析
- Authors: Sharu Theresa Jose and Shana Moothedath
- Abstract要約: 本研究では,エージェントが真コンテキストのノイズや破損したバージョンを観測するコンテキスト線形帯域問題について検討する。
我々の目標は、託宣の「近似可能なアクションポリシー」を設計することである。
- 参考スコア(独自算出の注目度): 5.076419064097733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore a stochastic contextual linear bandit problem where the agent
observes a noisy, corrupted version of the true context through a noise channel
with an unknown noise parameter. Our objective is to design an action policy
that can approximate" that of an oracle, which has access to the reward model,
the channel parameter, and the predictive distribution of the true context from
the observed noisy context. In a Bayesian framework, we introduce a Thompson
sampling algorithm for Gaussian bandits with Gaussian context noise. Adopting
an information-theoretic analysis, we demonstrate the Bayesian regret of our
algorithm concerning the oracle's action policy. We also extend this problem to
a scenario where the agent observes the true context with some delay after
receiving the reward and show that delayed true contexts lead to lower Bayesian
regret. Finally, we empirically demonstrate the performance of the proposed
algorithms against baselines.
- Abstract(参考訳): エージェントが未知のノイズパラメータを持つノイズチャネルを介して真のコンテキストのノイズで破損したバージョンを観測する確率的文脈線形バンディット問題を検討する。
我々の目的は、報奨モデル、チャネルパラメータ、および観測されたノイズコンテキストから真コンテキストの予測分布にアクセス可能なオラクルの「近似可能なアクションポリシー」を設計することである。
ベイズ的枠組みでは,ガウス的文脈雑音を持つガウス的帯域に対するトンプソンサンプリングアルゴリズムを導入する。
情報理論的な分析を採用し、オラクルの行動ポリシーに関するアルゴリズムのベイズ的後悔を実証する。
この問題を,エージェントが報酬を受け取った後,何らかの遅延で真のコンテキストを観察し,遅延した真のコンテキストがベイズ人の後悔を減少させるというシナリオにまで拡張する。
最後に,提案するアルゴリズムのベースラインに対する性能を実証的に示す。
関連論文リスト
- Partially Observable Contextual Bandits with Linear Payoffs [18.593061465167363]
我々は、部分的に観測可能で相関したコンテキストと線形ペイオフを持つ新しい帯域設定を考える。
本稿では,EMKF-Banditというアルゴリズムパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-17T19:47:04Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian
rewards [44.025369660607645]
文脈帯域問題に対するトンプソンサンプリングアルゴリズムの性能について検討する。
ガウス以南の報奨に充てられる情報比率の引き上げに関する新たな限界を導入する。
論文 参考訳(メタデータ) (2023-04-26T14:40:01Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Analysis of Thompson Sampling for Partially Observable Contextual
Multi-Armed Bandits [1.8275108630751844]
我々は、部分的に観測可能なコンテキスト多重武装バンディットのためのトンプソンサンプリングアルゴリズムを提案する。
提示された政策の後悔は、時間と武器の数に応じて対数的にスケールし、寸法と直線的にスケールすることを示す。
論文 参考訳(メタデータ) (2021-10-23T08:51:49Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - On Thompson Sampling for Smoother-than-Lipschitz Bandits [6.929312022493406]
我々はトンプソン・サンプリングの弱い条件下での連続的な武装バンディットに対する後悔に関する最初の境界を提供する。
我々の境界は、可溶性次元の分析によって実現される。
我々は、リプシッツ微分を持つ函数の類に対するユーラダー次元の新しい境界を導出する。
論文 参考訳(メタデータ) (2020-01-08T00:46:13Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。