論文の概要: Upper Confidence Bounds for Combining Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2012.13115v1
- Date: Thu, 24 Dec 2020 05:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:23:56.817322
- Title: Upper Confidence Bounds for Combining Stochastic Bandits
- Title(参考訳): 確率帯域結合のための上部信頼境界
- Authors: Ashok Cutkosky, Abhimanyu Das, Manish Purohit
- Abstract要約: バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
- 参考スコア(独自算出の注目度): 52.10197476419621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a simple method to combine stochastic bandit algorithms. Our
approach is based on a "meta-UCB" procedure that treats each of $N$ individual
bandit algorithms as arms in a higher-level $N$-armed bandit problem that we
solve with a variant of the classic UCB algorithm. Our final regret depends
only on the regret of the base algorithm with the best regret in hindsight.
This approach provides an easy and intuitive alternative strategy to the CORRAL
algorithm for adversarial bandits, without requiring the stability conditions
imposed by CORRAL on the base algorithms. Our results match lower bounds in
several settings, and we provide empirical validation of our algorithm on
misspecified linear bandit and model selection problems.
- Abstract(参考訳): 確率的バンディットアルゴリズムを結合する簡単な手法を提案する。
提案手法は,従来の UCB アルゴリズムの変種を用いて解く高レベルな$N$のバンドイット問題において,各$N$の個別バンドイットアルゴリズムをアームとして扱う "meta-UCB" 手法に基づいている。
私たちの最後の後悔は、基本アルゴリズムの後悔にのみ依存します。
このアプローチは、CORRALが基本アルゴリズムに課す安定性条件を必要とせず、CORRALアルゴリズムの逆の帯域幅に対する簡単かつ直感的な代替戦略を提供する。
本研究の結果は,いくつかの設定で下位境界値と一致し,不特定線形帯域問題とモデル選択問題に対するアルゴリズムの実証検証を行う。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - Regret Bound Balancing and Elimination for Model Selection in Bandits
and RL [34.15978290083909]
バンディットおよび強化学習問題におけるアルゴリズムの簡易モデル選択手法を提案する。
我々は、このアプローチの総後悔は、最も有効な候補者の後悔の回数が乗算的要因であることを証明します。
線形バンディットのモデル選択における最近の取り組みとは違って,我々のアプローチは,敵の環境によってコンテキスト情報が生成されるケースをカバーできるほど多用途である。
論文 参考訳(メタデータ) (2020-12-24T00:53:42Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。