論文の概要: Optimal Model Selection in Contextual Bandits with Many Classes via
Offline Oracles
- arxiv url: http://arxiv.org/abs/2106.06483v1
- Date: Fri, 11 Jun 2021 16:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:29:03.858287
- Title: Optimal Model Selection in Contextual Bandits with Many Classes via
Offline Oracles
- Title(参考訳): オフラインオラクルによる多数のクラスを有するコンテキストバンディットの最適モデル選択
- Authors: Sanath Kumar Krishnamurthy, Susan Athey
- Abstract要約: 文脈的包帯に対するモデル選択の問題について検討する。
本稿では,文脈的帯域幅のモデル選択をオフラインモデル選択オラクルに還元する手法を提案する。
我々の主な成果は、文脈的盗賊に対する新しいモデル選択保証である。
- 参考スコア(独自算出の注目度): 9.708651460086916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of model selection for contextual bandits, in which the
algorithm must balance the bias-variance trade-off for model estimation while
also balancing the exploration-exploitation trade-off. In this paper, we
propose the first reduction of model selection in contextual bandits to offline
model selection oracles, allowing for flexible general purpose algorithms with
computational requirements no worse than those for model selection for
regression. Our main result is a new model selection guarantee for stochastic
contextual bandits. When one of the classes in our set is realizable, up to a
logarithmic dependency on the number of classes, our algorithm attains optimal
realizability-based regret bounds for that class under one of two conditions:
if the time-horizon is large enough, or if an assumption that helps with
detecting misspecification holds. Hence our algorithm adapts to the complexity
of this unknown class. Even when this realizable class is known, we prove
improved regret guarantees in early rounds by relying on simpler model classes
for those rounds and hence further establish the importance of model selection
in contextual bandits.
- Abstract(参考訳): 本研究では,モデル推定のためのバイアス分散トレードオフのバランスと探索・探索トレードオフのバランスをとらなければならないコンテキストバンディットのモデル選択の問題について検討する。
本稿では,文脈的帯域選択からオフラインモデル選択のオーラクルへのモデル選択を初めて削減し,回帰のためのモデル選択よりも計算要求の柔軟な汎用アルゴリズムを実現することを提案する。
我々の主な成果は、確率的文脈的包帯に対する新しいモデル選択保証である。
私たちのアルゴリズムは、クラス数に対数的依存がある場合、時間水平が十分大きい場合、または誤特定を検出するのに役立つ仮定が成立する場合の2つの条件の1つの下で、そのクラスに対する最適な実現可能性に基づく後悔境界を達成する。
したがって、このアルゴリズムは未知のクラスの複雑さに適応する。
この実現可能なクラスが知られているとしても、これらのラウンドにおいてより単純なモデルクラスを頼りにすることで、早期ラウンドにおける後悔の保証の改善が証明される。
関連論文リスト
- Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Near Instance Optimal Model Selection for Pure Exploration Linear
Bandits [20.67688737534517]
純探索線形帯域設定におけるモデル選択問題について検討する。
私たちのゴールは、最小の仮説クラスのインスタンス依存の複雑性尺度に自動的に適応することです。
提案アルゴリズムは,実験設計に基づく新しい最適化問題を定義する。
論文 参考訳(メタデータ) (2021-09-10T22:56:58Z) - Model Selection for Generic Contextual Bandits [20.207989166682832]
適応文脈帯域(tt Family ACB)と呼ばれる改良型アルゴリズムを提案する。
我々は、このアルゴリズムが適応的であること、すなわち、リットレートが任意の証明可能な文脈帯域幅アルゴリズムと整合していることを証明する。
また,真のモデルクラスを知らないにもかかわらず,ETCスタイルのアルゴリズムでも同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2021-07-07T19:35:31Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Pareto Optimal Model Selection in Linear Bandits [15.85873315624132]
本研究では,学習者が最適仮説クラスの次元に適応しなければならない線形帯域設定におけるモデル選択問題について検討する。
本稿では,まず,固定アクション集合であっても,未知の内在次元$d_star$ への適応がコスト的に現れることを示す下限を定式化する。
論文 参考訳(メタデータ) (2021-02-12T16:02:06Z) - Open Problem: Model Selection for Contextual Bandits [82.57505650713496]
文脈的バンディット学習において同様の保証が可能かどうかを問う。
統計的学習において、モデル選択のためのアルゴリズムは、学習者が最良の仮説クラスの複雑さに適応できるようにする。
論文 参考訳(メタデータ) (2020-06-19T03:00:01Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。