論文の概要: Randomized Exploration in Generalized Linear Bandits
- arxiv url: http://arxiv.org/abs/1906.08947v3
- Date: Mon, 10 Jul 2023 22:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 19:42:48.793761
- Title: Randomized Exploration in Generalized Linear Bandits
- Title(参考訳): 一般化線形バンディットにおけるランダム化探索
- Authors: Branislav Kveton, Manzil Zaheer, Csaba Szepesvari, Lihong Li, Mohammad
Ghavamzadeh, and Craig Boutilier
- Abstract要約: 一般化線形帯域に対する2つのランダム化アルゴリズムについて検討する。
最初のGLM-TSLは、ラプラス近似から後方分布への一般化線形モデル(GLM)をサンプリングする。
第2のGLM-FPLは、過去の報酬のランダムな摂動履歴にGLMを適合させる。
- 参考スコア(独自算出の注目度): 56.05007606177762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study two randomized algorithms for generalized linear bandits. The first,
GLM-TSL, samples a generalized linear model (GLM) from the Laplace
approximation to the posterior distribution. The second, GLM-FPL, fits a GLM to
a randomly perturbed history of past rewards. We analyze both algorithms and
derive $\tilde{O}(d \sqrt{n \log K})$ upper bounds on their $n$-round regret,
where $d$ is the number of features and $K$ is the number of arms. The former
improves on prior work while the latter is the first for Gaussian noise
perturbations in non-linear models. We empirically evaluate both GLM-TSL and
GLM-FPL in logistic bandits, and apply GLM-FPL to neural network bandits. Our
work showcases the role of randomization, beyond posterior sampling, in
exploration.
- Abstract(参考訳): 一般化線形帯域に対する2つのランダム化アルゴリズムについて検討する。
最初のGLM-TSLは、ラプラス近似から後方分布への一般化線形モデル(GLM)をサンプリングする。
第2のGLM-FPLは、過去の報酬のランダムな摂動履歴にGLMを適合させる。
どちらのアルゴリズムも解析し、$n$ラウンドの後悔に対して$\tilde{o}(d \sqrt{n \log k})$上限を導出します。
前者は先行作業を改善し、後者は非線形モデルにおけるガウス雑音摂動の最初の例である。
我々は,GLM-TSLとGLM-FPLの両方をロジスティックブレイトで実験的に評価し,GLM-FPLをニューラルネットワークブレイトに適用した。
我々の研究は、探索における後部サンプリング以上のランダム化の役割を示す。
関連論文リスト
- Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。
既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。
G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-14T14:14:19Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Combinatorial Causal Bandits [25.012065471684025]
因果的包帯において、学習エージェントは、各ラウンドで最大$K$変数を選択して介入し、ターゲット変数$Y$に対する期待される後悔を最小限にすることを目的としている。
因果モデルの簡潔なパラメトリック表現を用いた二元一般化線形モデル(BGLM)の文脈下で検討する。
マルコフ BGLM に対するアルゴリズム BGLM-OFU を最大推定法に基づいて提案し,O(sqrtTlog T)$ regret, ここでは$T$ が時間地平線となることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:14:58Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z) - Perturbed-History Exploration in Stochastic Linear Bandits [35.70267786499955]
線形帯域における累積後悔に対する新しいオンラインアルゴリズムを提案する。
このアルゴリズムは、その乱れた歴史に基づいて訓練された線形モデルにおいて、最も推定された報酬で腕を引っ張る。
論文 参考訳(メタデータ) (2019-03-21T17:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。