論文の概要: Residual Bootstrap Exploration for Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2002.08436v1
- Date: Wed, 19 Feb 2020 20:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:28:01.956986
- Title: Residual Bootstrap Exploration for Bandit Algorithms
- Title(参考訳): バンディットアルゴリズムの残留ブートストラップ探索
- Authors: Chi-Hua Wang, Yang Yu, Botao Hao, Guang Cheng
- Abstract要約: 残余ブートストラップ探索(textttReBoot)という,有界あるいは非有界な報酬を持つ帯域幅アルゴリズムにおける摂動に基づく探索法を提案する。
textttReBootは、残差ベースの摂動機構を通じてデータ駆動ランダムネスを注入することで探索を実施する。
合成多武装バンディット問題における textttReBoot の評価を行い,textttReBoot は無拘束報酬に対して, textttGiro citekveton 2018garbage よりも頑健に作用することを示した。
- 参考スコア(独自算出の注目度): 27.921006500629918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel perturbation-based exploration method in
bandit algorithms with bounded or unbounded rewards, called residual bootstrap
exploration (\texttt{ReBoot}). The \texttt{ReBoot} enforces exploration by
injecting data-driven randomness through a residual-based perturbation
mechanism. This novel mechanism captures the underlying distributional
properties of fitting errors, and more importantly boosts exploration to escape
from suboptimal solutions (for small sample sizes) by inflating variance level
in an \textit{unconventional} way. In theory, with appropriate variance
inflation level, \texttt{ReBoot} provably secures instance-dependent
logarithmic regret in Gaussian multi-armed bandits. We evaluate the
\texttt{ReBoot} in different synthetic multi-armed bandits problems and observe
that the \texttt{ReBoot} performs better for unbounded rewards and more
robustly than \texttt{Giro} \cite{kveton2018garbage} and \texttt{PHE}
\cite{kveton2019perturbed}, with comparable computational efficiency to the
Thompson sampling method.
- Abstract(参考訳): 本稿では,残余ブートストラップ探索(\texttt{ReBoot})と呼ばれる,有界あるいは非有界な報酬を持つ帯域幅アルゴリズムにおける新しい摂動探索法を提案する。
この \texttt{reboot} は、残差ベースの摂動機構を通じてデータ駆動ランダム性を注入することで探索を強制する。
この新しいメカニズムは適合誤差の根底にある分布特性を捉え、より重要なことは、分散レベルを \textit{unconventional} 方法で膨らませることで(小さなサンプルサイズの場合)最適解から逃れる探索を促進する。
理論上、適切な分散インフレーションレベルでは、 \texttt{ReBoot} はガウスの多武装バンディットにおけるインスタンス依存の対数的後悔を確実に保証する。
異なる合成多腕バンディット問題における \texttt{reboot} の評価を行い、この \texttt{reboot} は、トンプソンサンプリング法と同等の計算効率を持つ \texttt{giro} \cite{kveton2018garbage} および \texttt{phe} \cite{kveton2019perturbed} よりも、無制限の報酬に対してより頑健な性能を示す。
関連論文リスト
- Zero-Inflated Bandits [12.675908271908048]
ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。
理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報酬分布がガウス以下の場合、その確率-最適後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-25T03:13:21Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Squeeze All: Novel Estimator and Self-Normalized Bound for Linear
Contextual Bandits [18.971564419292893]
我々は、$O(sqrtdTlog T)$ regret boundで、$d$は文脈の次元、$T$は時間地平線であるような線形文脈的帯域幅アルゴリズムを提案する。
提案アルゴリズムは,探索を明示的ランダム化により埋め込んだ新しい推定器を備える。
論文 参考訳(メタデータ) (2022-06-11T02:43:17Z) - Residual Bootstrap Exploration for Stochastic Linear Bandit [33.09784550079342]
線形バンディット問題に対するブートストラップに基づくオンラインアルゴリズムを提案する。
提案した textttLinReBoot は,弱い条件下では $tildeO(d sqrtn)$ sub-linear regret を保証している。
論文 参考訳(メタデータ) (2022-02-23T12:47:12Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Doubly robust Thompson sampling for linear payoffs [12.375561840897742]
本稿では,Douubly Robust (DR) Thompson Sampling と呼ばれる新しいマルチアームコンテキスト帯域幅アルゴリズムを提案する。
提案アルゴリズムは, 新たな補遺分解を許容し, $tildeO(phi-2sqrtT)$の順序で補遺を改良する。
論文 参考訳(メタデータ) (2021-02-01T23:31:10Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。