論文の概要: Adapting to misspecification in contextual bandits with offline
regression oracles
- arxiv url: http://arxiv.org/abs/2102.13240v1
- Date: Fri, 26 Feb 2021 00:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 14:02:27.371014
- Title: Adapting to misspecification in contextual bandits with offline
regression oracles
- Title(参考訳): オフライン回帰オーラクルを用いた文脈的包帯の誤認への適応
- Authors: Sanath Kumar Krishnamurthy, Vitor Hadad, and Susan Athey
- Abstract要約: 本稿では,適切な安全ポリシーに回帰することで,誤特定誤りに適応する文脈的帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。
- 参考スコア(独自算出の注目度): 7.312170216336086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computationally efficient contextual bandits are often based on estimating a
predictive model of rewards given contexts and arms using past data. However,
when the reward model is not well-specified, the bandit algorithm may incur
unexpected regret, so recent work has focused on algorithms that are robust to
misspecification. We propose a simple family of contextual bandit algorithms
that adapt to misspecification error by reverting to a good safe policy when
there is evidence that misspecification is causing a regret increase. Our
algorithm requires only an offline regression oracle to ensure regret
guarantees that gracefully degrade in terms of a measure of the average
misspecification level. Compared to prior work, we attain similar regret
guarantees, but we do no rely on a master algorithm, and do not require more
robust oracles like online or constrained regression oracles (e.g., Foster et
al. (2020a); Krishnamurthy et al. (2020)). This allows us to design algorithms
for more general function approximation classes.
- Abstract(参考訳): 計算効率の良いコンテクストバンディットは、過去のデータを用いて与えられたコンテクストとアームの予測モデルに基づくことが多い。
しかし、報奨モデルが十分に特定されていない場合、バンディットアルゴリズムは予期せぬ後悔を引き起こす可能性があるため、最近の研究は誤特定に頑健なアルゴリズムに焦点を当てている。
我々は,誤特定が後悔の増大を引き起こすという証拠がある場合に,適切な安全ポリシーに戻すことにより,誤特定エラーに適応する,文脈的バンディットアルゴリズムの単純なファミリを提案する。
我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。
以前の研究と比較すると、同様の後悔の保証を得るが、マスターアルゴリズムに頼らず、オンラインや制約付き回帰オラクル(フォスターなど)のようなより堅牢なオラクルを必要としない。
(2020a): Krishnamurthy et al。
(2020)).
これにより、より一般的な関数近似クラスのためのアルゴリズムを設計できる。
関連論文リスト
- Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces [14.366265951396587]
我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。
本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。
我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
論文 参考訳(メタデータ) (2022-07-12T21:27:09Z) - Online Sign Identification: Minimization of the Number of Errors in
Thresholding Bandits [27.09804256642197]
我々はFrank-Wolfeアルゴリズムにインスパイアされたアルゴリズム群を紹介する。
我々は幅広い問題に対して新しい明示的アルゴリズムを構築した。
我々はこの現象を洞察に富んだおもちゃの問題で説明する。
論文 参考訳(メタデータ) (2021-10-18T09:36:36Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks [81.13338949407205]
近年の研究では、最適なバンディットアルゴリズムは敵攻撃に対して脆弱であり、攻撃の有無で完全に失敗する可能性があることが示されている。
既存の堅牢なバンディットアルゴリズムは、報酬の攻撃下では、非コンテキスト設定でのみ機能する。
完全適応的かつ全能的な攻撃下での線形文脈帯域設定のための最初の頑健な帯域幅アルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-05T22:20:34Z) - Tractable contextual bandits beyond realizability [15.40239357726009]
本稿では,実現可能性仮定に敏感でないトラクタブルバンディットアルゴリズムを提案する。
我々のアルゴリズムは、実現可能性に基づくアルゴリズムによって達成された後悔について、同じ保証を保証します。
論文 参考訳(メタデータ) (2020-10-25T01:36:04Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。