論文の概要: Zero-Inflated Bandits
- arxiv url: http://arxiv.org/abs/2312.15595v1
- Date: Mon, 25 Dec 2023 03:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:29:22.439335
- Title: Zero-Inflated Bandits
- Title(参考訳): ゼロ膨張バンディット
- Authors: Haoyu Wei, Runzhe Wan, Lei Shi, Rui Song
- Abstract要約: ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。
理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報酬分布がガウス以下の場合、その確率-最適後悔を達成できることを示す。
- 参考スコア(独自算出の注目度): 12.675908271908048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real applications of bandits have sparse non-zero rewards, leading to
slow learning rates. A careful distribution modeling that utilizes
problem-specific structures is known as critical to estimation efficiency in
the statistics literature, yet is under-explored in bandits. To fill the gap,
we initiate the study of zero-inflated bandits, where the reward is modeled as
a classic semi-parametric distribution called zero-inflated distribution. We
carefully design Upper Confidence Bound (UCB) and Thompson Sampling (TS)
algorithms for this specific structure. Our algorithms are suitable for a very
general class of reward distributions, operating under tail assumptions that
are considerably less stringent than the typical sub-Gaussian requirements.
Theoretically, we derive the regret bounds for both the UCB and TS algorithms
for multi-armed bandit, showing that they can achieve rate-optimal regret when
the reward distribution is sub-Gaussian. The superior empirical performance of
the proposed methods is shown via extensive numerical studies.
- Abstract(参考訳): 多くの実際のバンディットの応用は、ゼロではない報酬が少なく、学習速度が遅くなる。
問題固有の構造を利用する注意深い分布モデリングは、統計文献における推定効率に極めて重要であるが、バンディットでは未検討である。
このギャップを埋めるために,ゼロ・インフレーション分布と呼ばれる古典的な半パラメトリック分布をモデルとしたゼロ・インフレーション・バンディットの研究を開始する。
我々は,この特定の構造に対してuper confidence bound (ucb) と thompson sampling (ts) アルゴリズムを慎重に設計する。
我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。
理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報奨分布がガウス以下の場合の速度-最適後悔を達成できることを示す。
提案手法の優れた経験的性能は, 広範な数値実験によって示される。
関連論文リスト
- Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms [10.662105162882526]
本研究は,Emphmany-armed regimeにおける$k$-armed bandit問題について考察する。
以上の結果から,多腕の環境下での強欲なアルゴリズムには,新たなエフェフリー探索法が有用であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T08:59:34Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。