論文の概要: Zero-Inflated Bandits
- arxiv url: http://arxiv.org/abs/2312.15595v1
- Date: Mon, 25 Dec 2023 03:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:29:22.439335
- Title: Zero-Inflated Bandits
- Title(参考訳): ゼロ膨張バンディット
- Authors: Haoyu Wei, Runzhe Wan, Lei Shi, Rui Song
- Abstract要約: ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。
理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報酬分布がガウス以下の場合、その確率-最適後悔を達成できることを示す。
- 参考スコア(独自算出の注目度): 12.675908271908048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real applications of bandits have sparse non-zero rewards, leading to
slow learning rates. A careful distribution modeling that utilizes
problem-specific structures is known as critical to estimation efficiency in
the statistics literature, yet is under-explored in bandits. To fill the gap,
we initiate the study of zero-inflated bandits, where the reward is modeled as
a classic semi-parametric distribution called zero-inflated distribution. We
carefully design Upper Confidence Bound (UCB) and Thompson Sampling (TS)
algorithms for this specific structure. Our algorithms are suitable for a very
general class of reward distributions, operating under tail assumptions that
are considerably less stringent than the typical sub-Gaussian requirements.
Theoretically, we derive the regret bounds for both the UCB and TS algorithms
for multi-armed bandit, showing that they can achieve rate-optimal regret when
the reward distribution is sub-Gaussian. The superior empirical performance of
the proposed methods is shown via extensive numerical studies.
- Abstract(参考訳): 多くの実際のバンディットの応用は、ゼロではない報酬が少なく、学習速度が遅くなる。
問題固有の構造を利用する注意深い分布モデリングは、統計文献における推定効率に極めて重要であるが、バンディットでは未検討である。
このギャップを埋めるために,ゼロ・インフレーション分布と呼ばれる古典的な半パラメトリック分布をモデルとしたゼロ・インフレーション・バンディットの研究を開始する。
我々は,この特定の構造に対してuper confidence bound (ucb) と thompson sampling (ts) アルゴリズムを慎重に設計する。
我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。
理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報奨分布がガウス以下の場合の速度-最適後悔を達成できることを示す。
提案手法の優れた経験的性能は, 広範な数値実験によって示される。
関連論文リスト
- Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。
実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。
提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文 参考訳(メタデータ) (2024-09-13T06:40:56Z) - Diffusion Models Meet Contextual Bandits with Large Action Spaces [1.0878040851638]
文脈的包帯では、行動の報酬はしばしば相関しており、これを効率的に探索するために活用することができる。
本研究では,事前学習した拡散モデルを用いて,拡散トンプソンサンプリング(dTS)を設計する。
論文 参考訳(メタデータ) (2024-02-15T15:48:55Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Exact Non-Oblivious Performance of Rademacher Random Embeddings [79.28094304325116]
本稿では,Rademacherランダムプロジェクションの性能を再検討する。
入力データに関して数値的に鋭く、曖昧でない新しい統計的保証を確立する。
論文 参考訳(メタデータ) (2023-03-21T11:45:27Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。