論文の概要: Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces
- arxiv url: http://arxiv.org/abs/2207.05849v1
- Date: Tue, 12 Jul 2022 21:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 12:22:48.914824
- Title: Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces
- Title(参考訳): 円滑な後悔を伴う文脈的バンディット:連続的行動空間における効率的な学習
- Authors: Yinglun Zhu, Paul Mineiro
- Abstract要約: 我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。
本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。
我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
- 参考スコア(独自算出の注目度): 14.366265951396587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing efficient general-purpose contextual bandit algorithms that work
with large -- or even continuous -- action spaces would facilitate application
to important scenarios such as information retrieval, recommendation systems,
and continuous control. While obtaining standard regret guarantees can be
hopeless, alternative regret notions have been proposed to tackle the large
action setting. We propose a smooth regret notion for contextual bandits, which
dominates previously proposed alternatives. We design a statistically and
computationally efficient algorithm -- for the proposed smooth regret -- that
works with general function approximation under standard supervised oracles. We
also present an adaptive algorithm that automatically adapts to any smoothness
level. Our algorithms can be used to recover the previous minimax/Pareto
optimal guarantees under the standard regret, e.g., in bandit problems with
multiple best arms and Lipschitz/H{\"o}lder bandits. We conduct large-scale
empirical evaluations demonstrating the efficacy of our proposed algorithms.
- Abstract(参考訳): 大規模な(あるいは連続)アクションスペースで動作する効率的な汎用コンテキストバンディットアルゴリズムを設計することで、情報検索やレコメンデーションシステム、継続的な制御といった重要なシナリオへのアプリケーションの適用が容易になる。
標準的な後悔の保証を得ることは望ましくないが、大きな行動設定に取り組むために別の後悔の概念が提案されている。
従来提案されていた代替案を優越する文脈的バンディットに対して,スムーズな後悔概念を提案する。
提案するスムーズな後悔のために,統計的かつ計算学的に効率的なアルゴリズムを設計する。
また,任意の滑らかさレベルに自動適応する適応アルゴリズムを提案する。
我々のアルゴリズムは、例えば、複数のベストアームを持つバンディット問題やリプシッツ/H{\"o}old banditsなどにおいて、標準的な後悔の下で、以前のminimax/Paretoの最適保証を回復するために使用できる。
提案アルゴリズムの有効性を示す大規模な実験評価を行う。
関連論文リスト
- On Adaptivity in Non-stationary Stochastic Optimization With Bandit
Feedback [11.208914594208654]
集約された関数の変化が事前認識されている場合、単純な再起動アルゴリズムが最適の動的後悔を達成できることが示される。
また,静止ベンチマークに対して良好な後悔を達成するアルゴリズムを,動的ベンチマークに対して良い後悔を与えるアルゴリズムに自動的に変換できることを示す。
論文 参考訳(メタデータ) (2022-10-11T16:16:34Z) - Non-Stationary Bandits under Recharging Payoffs: Improved Planning with
Sublinear Regret [34.44347218903429]
マルチアームバンディット設定は、最近非定常状態において研究されている。
各アクションの平均的なペイオフは、前回のプレイ以来のラウンド数の増加しない機能である。
我々は,我々のアルゴリズムがサブ線形後悔を伴う帯域幅アルゴリズムにどのように変換されるかを示す。
論文 参考訳(メタデータ) (2022-05-29T23:55:36Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks [81.13338949407205]
近年の研究では、最適なバンディットアルゴリズムは敵攻撃に対して脆弱であり、攻撃の有無で完全に失敗する可能性があることが示されている。
既存の堅牢なバンディットアルゴリズムは、報酬の攻撃下では、非コンテキスト設定でのみ機能する。
完全適応的かつ全能的な攻撃下での線形文脈帯域設定のための最初の頑健な帯域幅アルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-05T22:20:34Z) - Adapting to misspecification in contextual bandits with offline
regression oracles [7.312170216336086]
本稿では,適切な安全ポリシーに回帰することで,誤特定誤りに適応する文脈的帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。
論文 参考訳(メタデータ) (2021-02-26T00:15:04Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。