論文の概要: Zero-Inflated Bandits
- arxiv url: http://arxiv.org/abs/2312.15595v1
- Date: Mon, 25 Dec 2023 03:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:29:22.439335
- Title: Zero-Inflated Bandits
- Title(参考訳): ゼロ膨張バンディット
- Authors: Haoyu Wei, Runzhe Wan, Lei Shi, Rui Song
- Abstract要約: ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。
理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報酬分布がガウス以下の場合、その確率-最適後悔を達成できることを示す。
- 参考スコア(独自算出の注目度): 12.675908271908048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real applications of bandits have sparse non-zero rewards, leading to
slow learning rates. A careful distribution modeling that utilizes
problem-specific structures is known as critical to estimation efficiency in
the statistics literature, yet is under-explored in bandits. To fill the gap,
we initiate the study of zero-inflated bandits, where the reward is modeled as
a classic semi-parametric distribution called zero-inflated distribution. We
carefully design Upper Confidence Bound (UCB) and Thompson Sampling (TS)
algorithms for this specific structure. Our algorithms are suitable for a very
general class of reward distributions, operating under tail assumptions that
are considerably less stringent than the typical sub-Gaussian requirements.
Theoretically, we derive the regret bounds for both the UCB and TS algorithms
for multi-armed bandit, showing that they can achieve rate-optimal regret when
the reward distribution is sub-Gaussian. The superior empirical performance of
the proposed methods is shown via extensive numerical studies.
- Abstract(参考訳): 多くの実際のバンディットの応用は、ゼロではない報酬が少なく、学習速度が遅くなる。
問題固有の構造を利用する注意深い分布モデリングは、統計文献における推定効率に極めて重要であるが、バンディットでは未検討である。
このギャップを埋めるために,ゼロ・インフレーション分布と呼ばれる古典的な半パラメトリック分布をモデルとしたゼロ・インフレーション・バンディットの研究を開始する。
我々は,この特定の構造に対してuper confidence bound (ucb) と thompson sampling (ts) アルゴリズムを慎重に設計する。
我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。
理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報奨分布がガウス以下の場合の速度-最適後悔を達成できることを示す。
提案手法の優れた経験的性能は, 広範な数値実験によって示される。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Breaking the Moments Condition Barrier: No-Regret Algorithm for Bandits
with Super Heavy-Tailed Payoffs [27.636407641546914]
実験的な中央値列の経験的平均を計算し,確率変数を推定する,新しい頑健な統計推定器を提案する。
非常に重みのある雑音であっても, 後悔の限界がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-10-26T17:30:44Z) - Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。
我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文 参考訳(メタデータ) (2021-09-06T08:58:01Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。