論文の概要: Tractable contextual bandits beyond realizability
- arxiv url: http://arxiv.org/abs/2010.13013v2
- Date: Fri, 26 Feb 2021 00:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:31:37.833847
- Title: Tractable contextual bandits beyond realizability
- Title(参考訳): 実現可能性を超えた扱いやすいコンテクスト・バンディット
- Authors: Sanath Kumar Krishnamurthy, Vitor Hadad, and Susan Athey
- Abstract要約: 本稿では,実現可能性仮定に敏感でないトラクタブルバンディットアルゴリズムを提案する。
我々のアルゴリズムは、実現可能性に基づくアルゴリズムによって達成された後悔について、同じ保証を保証します。
- 参考スコア(独自算出の注目度): 15.40239357726009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tractable contextual bandit algorithms often rely on the realizability
assumption - i.e., that the true expected reward model belongs to a known
class, such as linear functions. In this work, we present a tractable bandit
algorithm that is not sensitive to the realizability assumption and
computationally reduces to solving a constrained regression problem in every
epoch. When realizability does not hold, our algorithm ensures the same
guarantees on regret achieved by realizability-based algorithms under
realizability, up to an additive term that accounts for the misspecification
error. This extra term is proportional to T times a function of the mean
squared error between the best model in the class and the true model, where T
is the total number of time-steps. Our work sheds light on the bias-variance
trade-off for tractable contextual bandits. This trade-off is not captured by
algorithms that assume realizability, since under this assumption there exists
an estimator in the class that attains zero bias.
- Abstract(参考訳): 扱いやすい文脈的バンディットアルゴリズムは、しばしば実現可能性の仮定(すなわち、真の期待報酬モデルは線形関数のような既知のクラスに属する)に依存する。
本研究では,実現可能性の仮定に敏感でないトラクタブルバンディットアルゴリズムを提案し,各エポックにおける制約付き回帰問題の解法に計算的に還元する。
実現可能性が保持されない場合、本アルゴリズムは、実現可能性に基づくアルゴリズムによって達成された後悔の保証を、誤特定化エラーを規定する付加項まで保証する。
この余剰項は、クラス内の最良のモデルと真のモデルの間の平均二乗誤差の関数の t 倍に比例し、t は時間ステップの総数である。
私たちの仕事は、取り得るコンテキストの包帯に対するバイアス分散トレードオフに光を当てています。
このトレードオフは実現可能性を持つアルゴリズムでは捉えられず、この仮定の下ではゼロバイアスに達するクラスに推定子が存在する。
関連論文リスト
- Efficient and Interpretable Bandit Algorithms [18.99853072645046]
バンドアルゴリズムは、未知のモデルパラメータの不確実性を減少させる目的で探索した場合、解釈可能である。
本稿では,制約付き最適設計に基づく帯域幅アルゴリズムCODEを提案する。
論文 参考訳(メタデータ) (2023-10-23T09:36:13Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - ReLU Regression with Massart Noise [52.10842036932169]
本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。
我々は自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。
このモデルにおいて,パラメータの正確な回復を実現する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-10T02:13:22Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z) - Adapting to misspecification in contextual bandits with offline
regression oracles [7.312170216336086]
本稿では,適切な安全ポリシーに回帰することで,誤特定誤りに適応する文脈的帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。
論文 参考訳(メタデータ) (2021-02-26T00:15:04Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z) - Bandit algorithms: Letting go of logarithmic regret for statistical
robustness [0.0]
我々は,多武器の盗賊設定における後悔について研究し,アルゴリズムによる後悔と統計的堅牢性の間に基本的なトレードオフを確立する。
対数的後悔を伴う帯域学習アルゴリズムは常に矛盾しており、一貫した学習アルゴリズムは常に超対数的後悔に苦しむことを示す。
論文 参考訳(メタデータ) (2020-06-22T07:18:47Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Provable Training of a ReLU Gate with an Iterative Non-Gradient
Algorithm [0.7614628596146599]
我々は,未調査体制下での1つのReLUゲートのトレーニングについて,証明可能な保証を示す。
我々は,真のラベルに対する(オンライン)データポゾン攻撃の下で,真のラベル生成パラメータを近似的に復元することを示す。
我々の保証は最悪の場合ほぼ最適であることが示され、真の重量回復の精度は攻撃の確率と大きさの増大とともに優雅に低下する。
論文 参考訳(メタデータ) (2020-05-08T17:59:23Z) - Being Bayesian about Categorical Probability [6.875312133832079]
クラスラベルに対する分類的確率の確率変数を考える。
この枠組みでは、先行分布は観測されたラベルに固有の推定ノイズを明示的にモデル化する。
本手法は,計算オーバーヘッドが無視できるプラグアンドプレイ損失関数として実装することができる。
論文 参考訳(メタデータ) (2020-02-19T02:35:32Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。