論文の概要: Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective
- arxiv url: http://arxiv.org/abs/2106.06483v3
- Date: Mon, 23 Oct 2023 20:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 04:10:20.343942
- Title: Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective
- Title(参考訳): コンテキスト帯域におけるコストレスモデル選択に向けて:バイアス分散の視点から
- Authors: Sanath Kumar Krishnamurthy, Adrienne Margaret Propp, Susan Athey
- Abstract要約: 文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
- 参考スコア(独自算出の注目度): 7.318831153179727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model selection in supervised learning provides costless guarantees as if the
model that best balances bias and variance was known a priori. We study the
feasibility of similar guarantees for cumulative regret minimization in the
stochastic contextual bandit setting. Recent work [Marinov and Zimmert, 2021]
identifies instances where no algorithm can guarantee costless regret bounds.
Nevertheless, we identify benign conditions where costless model selection is
feasible: gradually increasing class complexity, and diminishing marginal
returns for best-in-class policy value with increasing class complexity. Our
algorithm is based on a novel misspecification test, and our analysis
demonstrates the benefits of using model selection for reward estimation.
Unlike prior work on model selection in contextual bandits, our algorithm
carefully adapts to the evolving bias-variance trade-off as more data is
collected. In particular, our algorithm and analysis go beyond adapting to the
complexity of the simplest realizable class and instead adapt to the complexity
of the simplest class whose estimation variance dominates the bias. For short
horizons, this provides improved regret guarantees that depend on the
complexity of simpler classes.
- Abstract(参考訳): 教師あり学習におけるモデル選択は、バイアスと分散を最もバランスのとれたモデルが優先順位として知られていたかのように、コストのない保証を提供する。
確率的文脈的バンディット設定における累積的後悔の最小化に対する同様の保証の実現可能性について検討した。
最近の研究[Marinov and Zimmert, 2021]は、アルゴリズムがコストのかかる後悔の限界を保証できないインスタンスを特定している。
それにもかかわらず、コストのないモデル選択が実現可能な良質な条件を特定する: クラス複雑性が徐々に増大し、クラス複雑性が増大し、クラス内の最良ポリシー値に対する限界リターンが減少する。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
コンテキストバンディットにおけるモデル選択の先行作業とは異なり、より多くのデータが収集されるにつれて、アルゴリズムは進化するバイアス分散トレードオフに注意深く適応する。
特に、我々のアルゴリズムと分析は、最も実現可能なクラスの複雑さに適応するだけでなく、バイアスを支配する推定分散を持つ最も単純なクラスの複雑さにも適応する。
短期的には、これはより単純なクラスの複雑さに依存する後悔の保証を改善する。
関連論文リスト
- Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Near Instance Optimal Model Selection for Pure Exploration Linear
Bandits [20.67688737534517]
純探索線形帯域設定におけるモデル選択問題について検討する。
私たちのゴールは、最小の仮説クラスのインスタンス依存の複雑性尺度に自動的に適応することです。
提案アルゴリズムは,実験設計に基づく新しい最適化問題を定義する。
論文 参考訳(メタデータ) (2021-09-10T22:56:58Z) - Model Selection for Generic Contextual Bandits [20.207989166682832]
適応文脈帯域(tt Family ACB)と呼ばれる改良型アルゴリズムを提案する。
我々は、このアルゴリズムが適応的であること、すなわち、リットレートが任意の証明可能な文脈帯域幅アルゴリズムと整合していることを証明する。
また,真のモデルクラスを知らないにもかかわらず,ETCスタイルのアルゴリズムでも同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2021-07-07T19:35:31Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Pareto Optimal Model Selection in Linear Bandits [15.85873315624132]
本研究では,学習者が最適仮説クラスの次元に適応しなければならない線形帯域設定におけるモデル選択問題について検討する。
本稿では,まず,固定アクション集合であっても,未知の内在次元$d_star$ への適応がコスト的に現れることを示す下限を定式化する。
論文 参考訳(メタデータ) (2021-02-12T16:02:06Z) - Open Problem: Model Selection for Contextual Bandits [82.57505650713496]
文脈的バンディット学習において同様の保証が可能かどうかを問う。
統計的学習において、モデル選択のためのアルゴリズムは、学習者が最良の仮説クラスの複雑さに適応できるようにする。
論文 参考訳(メタデータ) (2020-06-19T03:00:01Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。