論文の概要: Thompson Sampling for Linear Bandit Problems with Normal-Gamma Priors
- arxiv url: http://arxiv.org/abs/2303.03348v1
- Date: Mon, 6 Mar 2023 18:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-07 15:02:34.136806
- Title: Thompson Sampling for Linear Bandit Problems with Normal-Gamma Priors
- Title(参考訳): 正常ガンマ前の線形帯域問題に対するトンプソンサンプリング
- Authors: Bj\"orn Lindenberg, Karl-Olof Lindahl
- Abstract要約: 我々は、有限個の独立腕を持つ線形バンドイット問題に対するトンプソンサンプリングを考える。
選択されたサンプリング先行は、報奨モデルの前に共役であり、分散分布の5/2モーメントが存在するという条件の下で、トンプソンサンプリングに対するベイズ的後悔を導出することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider Thompson sampling for linear bandit problems with finitely many
independent arms, where rewards are sampled from normal distributions that are
linearly dependent on unknown parameter vectors and with unknown variance.
Specifically, with a Bayesian formulation we consider multivariate normal-gamma
priors to represent environment uncertainty for all involved parameters. We
show that our chosen sampling prior is a conjugate prior to the reward model
and derive a Bayesian regret bound for Thompson sampling under the condition
that the 5/2-moment of the variance distribution exist.
- Abstract(参考訳): 有限個の独立なアームを持つ線形バンドイット問題に対するトンプソンサンプリングについて検討し、未知のパラメータベクトルと未知の分散に線形に依存する正規分布から報酬をサンプリングする。
具体的には、ベイズ的定式化では、すべての関連するパラメータに対する環境不確実性を表す多変量正規ガンマ前駆体を考える。
その結果,選択されたサンプリング前処理は報酬モデルに先立って共役であり,分散分布の5/2モーメントが存在することを条件に,トンプソンサンプリングに結びついたベイズ的後悔を生じることがわかった。
関連論文リスト
- Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - The Randomized Elliptical Potential Lemma with an Application to Linear
Thompson Sampling [10.939683083130616]
逐次学習におけるアルゴリズム解析や線形バンドイットなどの意思決定問題において広く用いられている、よく知られた楕円ポテンシャル補題のランダム化版を提案する。
我々のランダム化された楕円ポテンシャル補題は、観測ノイズと問題パラメータの事前分布に関するガウスの仮定を緩和する。
論文 参考訳(メタデータ) (2021-02-16T07:30:04Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。