論文の概要: Rate-adaptive model selection over a collection of black-box contextual
bandit algorithms
- arxiv url: http://arxiv.org/abs/2006.03632v1
- Date: Fri, 5 Jun 2020 18:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:58:52.425647
- Title: Rate-adaptive model selection over a collection of black-box contextual
bandit algorithms
- Title(参考訳): ブラックボックス文脈バンディットアルゴリズム群を用いたレート適応モデル選択
- Authors: Aur\'elien F. Bibaut, Antoine Chambaz, Mark J. van der Laan
- Abstract要約: 文脈的帯域設定におけるモデル選択タスクについて検討する。
我々の提案は、一般的なブラックボックス・コンテクスト・バンディットアルゴリズムの収集に適応する最初のものである。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the model selection task in the stochastic contextual bandit
setting. Suppose we are given a collection of base contextual bandit
algorithms. We provide a master algorithm that combines them and achieves the
same performance, up to constants, as the best base algorithm would, if it had
been run on its own. Our approach only requires that each algorithm satisfy a
high probability regret bound.
Our procedure is very simple and essentially does the following: for a well
chosen sequence of probabilities $(p_{t})_{t\geq 1}$, at each round $t$, it
either chooses at random which candidate to follow (with probability $p_{t}$)
or compares, at the same internal sample size for each candidate, the
cumulative reward of each, and selects the one that wins the comparison (with
probability $1-p_{t}$).
To the best of our knowledge, our proposal is the first one to be
rate-adaptive for a collection of general black-box contextual bandit
algorithms: it achieves the same regret rate as the best candidate.
We demonstrate the effectiveness of our method with simulation studies.
- Abstract(参考訳): 確率的文脈的バンディット設定におけるモデル選択タスクを考える。
基本文脈のバンディットアルゴリズムの集合が与えられると仮定する。
我々は、それらを組み合わせて、最高のベースアルゴリズムが単独で実行されていた場合のように、定数まで、同じパフォーマンスを達成するマスターアルゴリズムを提供する。
我々のアプローチは、それぞれのアルゴリズムが高い確率後悔境界を満たすことだけを要求する。
我々の手順は非常に単純で、基本的には以下のとおりである: 確率の順に選択された列 $(p_{t})_{t\geq 1}$ に対して、各ラウンド$t$ において、どの候補をフォローするか(確率 $p_{t}$ で)ランダムに選択するか、あるいは、各候補について同じ内部サンプルサイズで、それぞれの累積報酬をそれぞれ選択し、比較に勝つものを選ぶ(確率 $1-p_{t}$ で)。
我々の知る限りでは、我々の提案は、一般的なブラックボックスの文脈的バンディットアルゴリズムの集合において、最初のレート適応型であり、最高の候補と同じ後悔率を達成する。
シミュレーション研究により本手法の有効性を実証する。
関連論文リスト
- Replicability is Asymptotically Free in Multi-armed Bandits [45.729105054410745]
この仕事の動機は、再現可能な機械学習の需要の増加にある。
特に、高い確率で、アルゴリズムのアクション列がデータセットに固有のランダム性の影響を受けないように、複製可能なアルゴリズムを考える。
論文 参考訳(メタデータ) (2024-02-12T03:31:34Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - On Universally Optimal Algorithms for A/B Testing [49.429419538826444]
ベルヌーイ報奨を伴う多腕バンディットにおける固定予算によるベストアーム識別の問題について検討する。
A/Bテスト問題としても知られる2つのアームの問題に対して,各アームを等しくサンプリングするアルゴリズムが存在しないことを証明した。
論文 参考訳(メタデータ) (2023-08-23T08:38:53Z) - Multinomial Logit Contextual Bandits: Provable Optimality and
Practicality [15.533842336139063]
パラメータが不明な多項式ロギット(MNL)選択モデルによってユーザ選択が与えられる順序選択選択問題を検討する。
本稿では,このMNLコンテクストバンディットに対する高信頼境界に基づくアルゴリズムを提案する。
本稿では,アルゴリズムの単純な変種が,幅広い重要なアプリケーションに対して最適な後悔を与えることを示す。
論文 参考訳(メタデータ) (2021-03-25T15:42:25Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。