論文の概要: The Randomized Elliptical Potential Lemma with an Application to Linear
Thompson Sampling
- arxiv url: http://arxiv.org/abs/2102.07987v1
- Date: Tue, 16 Feb 2021 07:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 03:55:31.495761
- Title: The Randomized Elliptical Potential Lemma with an Application to Linear
Thompson Sampling
- Title(参考訳): 直線トンプソンサンプリングへの応用によるランダム化楕円ポテンシャル補題
- Authors: Nima Hamidi, Mohsen Bayati
- Abstract要約: 逐次学習におけるアルゴリズム解析や線形バンドイットなどの意思決定問題において広く用いられている、よく知られた楕円ポテンシャル補題のランダム化版を提案する。
我々のランダム化された楕円ポテンシャル補題は、観測ノイズと問題パラメータの事前分布に関するガウスの仮定を緩和する。
- 参考スコア(独自算出の注目度): 10.939683083130616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this note, we introduce a randomized version of the well-known elliptical
potential lemma that is widely used in the analysis of algorithms in sequential
learning and decision-making problems such as stochastic linear bandits. Our
randomized elliptical potential lemma relaxes the Gaussian assumption on the
observation noise and on the prior distribution of the problem parameters. We
then use this generalization to prove an improved Bayesian regret bound for
Thompson sampling for the linear stochastic bandits with changing action sets
where prior and noise distributions are general. This bound is minimax optimal
up to constants.
- Abstract(参考訳): 本稿では,逐次学習におけるアルゴリズム解析や確率線形バンドイットなどの意思決定問題において広く用いられている,有名な楕円ポテンシャル補題のランダム化版を提案する。
我々のランダム化された楕円ポテンシャル補題は、観測ノイズと問題パラメータの事前分布に関するガウスの仮定を緩和する。
次に,この一般化を用いて,線形確率バンディットに対するトンプソンサンプリングに拘束されたベイズ的後悔を,事前分布と雑音分布が一般的であるような動作集合を変化させて証明する。
この境界は定数まで最小値である。
関連論文リスト
- Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - SNIPS: Solving Noisy Inverse Problems Stochastically [25.567566997688044]
本稿では,線形逆問題の後部分布からサンプルを抽出するSNIPSアルゴリズムを提案する。
我々の解はランゲヴィン力学とニュートン法からのアイデアを取り入れ、事前訓練された最小二乗誤差(MMSE)を利用する。
得られたサンプルは、与えられた測定値と鋭く、詳細で一致しており、それらの多様性は、解決される逆問題に固有の不確実性を明らかにする。
論文 参考訳(メタデータ) (2021-05-31T13:33:21Z) - Stochastic Online Convex Optimization. Application to probabilistic time
series forecasting [0.0]
我々は、オンラインニュートンステップやスケールレスのBernsteinオンラインバージョンのようなアルゴリズムが、無制限の設定で最もよく知られたレートを達成することを証明している。
私たちの高速な後悔の限界はいつでも有効です。
論文 参考訳(メタデータ) (2021-02-01T09:49:15Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Stochastic Saddle-Point Optimization for Wasserstein Barycenters [69.68068088508505]
オンラインデータストリームによって生成される有限個の点からなるランダムな確率測度に対する人口推定バリセンタ問題を考察する。
本稿では,この問題の構造を用いて,凸凹型サドル点再構成を行う。
ランダム確率測度の分布が離散的な場合、最適化アルゴリズムを提案し、その複雑性を推定する。
論文 参考訳(メタデータ) (2020-06-11T19:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。