論文の概要: Experimental Design for Regret Minimization in Linear Bandits
- arxiv url: http://arxiv.org/abs/2011.00576v2
- Date: Sat, 27 Feb 2021 01:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 23:03:20.430820
- Title: Experimental Design for Regret Minimization in Linear Bandits
- Title(参考訳): リニアバンディットにおける後悔最小化の実験設計
- Authors: Andrew Wagenmaker, Julian Katz-Samuels, Kevin Jamieson
- Abstract要約: オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
- 参考スコア(独自算出の注目度): 19.8309784360219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose a novel experimental design-based algorithm to
minimize regret in online stochastic linear and combinatorial bandits. While
existing literature tends to focus on optimism-based algorithms--which have
been shown to be suboptimal in many cases--our approach carefully plans which
action to take by balancing the tradeoff between information gain and reward,
overcoming the failures of optimism. In addition, we leverage tools from the
theory of suprema of empirical processes to obtain regret guarantees that scale
with the Gaussian width of the action set, avoiding wasteful union bounds. We
provide state-of-the-art finite time regret guarantees and show that our
algorithm can be applied in both the bandit and semi-bandit feedback regime. In
the combinatorial semi-bandit setting, we show that our algorithm is
computationally efficient and relies only on calls to a linear maximization
oracle. In addition, we show that with slight modification our algorithm can be
used for pure exploration, obtaining state-of-the-art pure exploration
guarantees in the semi-bandit setting. Finally, we provide, to the best of our
knowledge, the first example where optimism fails in the semi-bandit regime,
and show that in this setting our algorithm succeeds.
- Abstract(参考訳): 本稿では,オンライン確率線形および組合せバンディットにおける後悔を最小限に抑える実験的な設計ベースアルゴリズムを提案する。
既存の文献は楽観主義に基づくアルゴリズムに焦点をあてる傾向にあるが、多くのケースにおいて最適ではないことが示されている。
さらに,実験過程のスプレマ理論のツールを活用して,動作集合のガウス幅にスケールする後悔を保証し,無駄な結合境界を回避した。
我々は最先端の有限時間後悔保証を提供し、このアルゴリズムがバンディットフィードバックと半バンドフィードバックの両方に適用可能であることを示す。
組合せ半帯域設定において、我々のアルゴリズムは計算効率が高く、線形最大化オラクルへの呼び出しのみに依存することを示した。
さらに,本アルゴリズムは若干の修正を加えることで,半帯域設定における最先端の純粋な探索保証を得ることができることを示す。
最後に、私たちの知る限りでは、楽観主義が半帯域制で失敗する最初の例を提供し、この設定で我々のアルゴリズムが成功することを示す。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces [14.366265951396587]
我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。
本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。
我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
論文 参考訳(メタデータ) (2022-07-12T21:27:09Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Sub-linear Regret Bounds for Bayesian Optimisation in Unknown Search
Spaces [63.22864716473051]
本稿では,反復により探索空間を拡大(およびシフト)する新しいBOアルゴリズムを提案する。
理論的には、どちらのアルゴリズムにおいても、累積的後悔は線形以下の速度で増大する。
論文 参考訳(メタデータ) (2020-09-05T14:24:40Z) - An Empirical Process Approach to the Union Bound: Practical Algorithms
for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。
サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。
また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-21T00:56:33Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。