論文の概要: Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2106.02979v1
- Date: Sat, 5 Jun 2021 22:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:35:59.496658
- Title: Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms
- Title(参考訳): Syndicated Bandits: コンテキスト帯域アルゴリズムにおけるハイパーパラメータの自動チューニングフレームワーク
- Authors: Qin Ding, Yi-Wei Liu, Cho-Jui Hsieh, James Sharpnack
- Abstract要約: 文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
- 参考スコア(独自算出の注目度): 74.55200180156906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stochastic contextual bandit problem, which models the trade-off between
exploration and exploitation, has many real applications, including recommender
systems, online advertising and clinical trials. As many other machine learning
algorithms, contextual bandit algorithms often have one or more
hyper-parameters. As an example, in most optimal stochastic contextual bandit
algorithms, there is an unknown exploration parameter which controls the
trade-off between exploration and exploitation. A proper choice of the
hyper-parameters is essential for contextual bandit algorithms to perform well.
However, it is infeasible to use offline tuning methods to select
hyper-parameters in contextual bandit environment since there is no
pre-collected dataset and the decisions have to be made in real time. To tackle
this problem, we first propose a two-layer bandit structure for auto tuning the
exploration parameter and further generalize it to the Syndicated Bandits
framework which can learn multiple hyper-parameters dynamically in contextual
bandit environment. We show our Syndicated Bandits framework can achieve the
optimal regret upper bounds and is general enough to handle the tuning tasks in
many popular contextual bandit algorithms, such as LinUCB, LinTS, UCB-GLM, etc.
Experiments on both synthetic and real datasets validate the effectiveness of
our proposed framework.
- Abstract(参考訳): 探索と搾取の間のトレードオフをモデル化する確率論的文脈的盗賊問題には、推薦システム、オンライン広告、臨床試験など多くの応用がある。
他の多くの機械学習アルゴリズムと同様に、コンテキストバンディットアルゴリズムは1つ以上のハイパーパラメータを持つことが多い。
例えば、最も最適な確率的文脈的バンディットアルゴリズムでは、探索と搾取の間のトレードオフを制御する未知の探索パラメータが存在する。
ハイパーパラメータの適切な選択は、文脈的バンディットアルゴリズムがうまく機能するために不可欠である。
しかしながら、事前収集されたデータセットがなく、決定をリアルタイムで行う必要があるため、コンテキストバンディット環境でハイパーパラメータを選択するためにオフラインチューニングを使用するのは不可能である。
そこで本研究では,まず探索パラメータの自動チューニングを行う2層バンディット構造を提案し,文脈的バンディット環境で動的に複数のハイパーパラメータを学習できるシンジケートバンディットフレームワークにさらに一般化する。
我々は,LinUCB,LinTS,UCB-GLMなど,多くの一般的な文脈的帯域幅アルゴリズムのチューニングタスクを扱うのに十分な,最適の後悔上限を実現することができることを示す。
合成データと実データの両方に関する実験により,提案手法の有効性が検証された。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - A Simple Unified Framework for High Dimensional Bandit Problems [33.139925285802825]
本稿では,アルゴリズムの上界を後悔する一般的な解析フレームワークを提案する。
本アルゴリズムは,異なる高次元バンディット問題に適用できることを示した。
論文 参考訳(メタデータ) (2021-02-18T21:35:32Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。
提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。
ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T17:20:19Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。