論文の概要: Random Effect Bandits
- arxiv url: http://arxiv.org/abs/2106.12200v1
- Date: Wed, 23 Jun 2021 07:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:29:27.524715
- Title: Random Effect Bandits
- Title(参考訳): ランダム効果バンディット
- Authors: Rong Zhu and Branislav Kveton
- Abstract要約: 我々は,古典的なオンライン学習問題であるマルチアームバンディットの後悔について研究する。
実験の結果,ReUCBは様々なシナリオにおいてトンプソンサンプリングより優れていることがわかった。
- 参考スコア(独自算出の注目度): 22.322646330965476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies regret minimization in multi-armed bandits, a classical
online learning problem. To develop more statistically-efficient algorithms, we
propose to use the assumption of a random-effect model. In this model, the mean
rewards of arms are drawn independently from an unknown distribution, whose
parameters we estimate. We provide an estimator of the arm means in this model
and also analyze its uncertainty. Based on these results, we design a UCB
algorithm, which we call ReUCB. We analyze ReUCB and prove a Bayes regret bound
on its $n$-round regret, which matches an existing lower bound. Our experiments
show that ReUCB can outperform Thompson sampling in various scenarios, without
assuming that the prior distribution of arm means is known.
- Abstract(参考訳): 本稿では,古典的オンライン学習問題である多腕バンディットにおける後悔の最小化について述べる。
より統計的に効率的なアルゴリズムを開発するために,ランダム効果モデルの仮定を用いることを提案する。
このモデルでは、腕の平均報酬は未知の分布から独立に引き出され、そのパラメータは推定される。
我々は,本モデルにおけるアーム平均の推定器を提供し,その不確実性を分析する。
これらの結果に基づいて,我々はReUCBと呼ぶ UCB アルゴリズムを設計する。
reucbを分析して、既存の下限に合致した、n$roundの後悔に縛られたベイズ後悔を証明する。
実験の結果,reucbは,アーム平均の事前分布が分かっていないと仮定することなく,様々なシナリオにおいてトンプソンサンプリングよりも優れることがわかった。
関連論文リスト
- Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。
実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。
提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文 参考訳(メタデータ) (2024-09-13T06:40:56Z) - Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits [0.0]
対称な報酬分布のための分布自由データ駆動型 UCB アルゴリズムを提案する。
パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。
論文 参考訳(メタデータ) (2024-06-09T10:06:50Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - Hypothesis Transfer in Bandits by Weighted Models [8.759884299087835]
我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
論文 参考訳(メタデータ) (2022-11-14T14:13:02Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。