論文の概要: Dynamic Batch Learning in High-Dimensional Sparse Linear Contextual
Bandits
- arxiv url: http://arxiv.org/abs/2008.11918v4
- Date: Sat, 16 Jul 2022 21:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:26:06.620338
- Title: Dynamic Batch Learning in High-Dimensional Sparse Linear Contextual
Bandits
- Title(参考訳): 高次元スパース線形帯域における動的バッチ学習
- Authors: Zhimei Ren and Zhengyuan Zhou
- Abstract要約: 高次元線形空間帯域における動的バッチ学習の問題点について検討する。
我々の研究は、高次元の疎線形文脈帯域における動的バッチ学習の理論的理解への第一歩となる。
- 参考スコア(独自算出の注目度): 18.64677502651614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of dynamic batch learning in high-dimensional sparse
linear contextual bandits, where a decision maker, under a given
maximum-number-of-batch constraint and only able to observe rewards at the end
of each batch, can dynamically decide how many individuals to include in the
next batch (at the end of the current batch) and what personalized
action-selection scheme to adopt within each batch. Such batch constraints are
ubiquitous in a variety of practical contexts, including personalized product
offerings in marketing and medical treatment selection in clinical trials. We
characterize the fundamental learning limit in this problem via a regret lower
bound and provide a matching upper bound (up to log factors), thus prescribing
an optimal scheme for this problem. To the best of our knowledge, our work
provides the first inroad into a theoretical understanding of dynamic batch
learning in high-dimensional sparse linear contextual bandits. Notably, even a
special case of our result -- when no batch constraint is present -- yields
that the simple exploration-free algorithm using the LASSO estimator already
achieves the minimax optimal regret bound for standard online learning in
high-dimensional linear contextual bandits (for the no-margin case), a result
that appears unknown in the emerging literature of high-dimensional contextual
bandits.
- Abstract(参考訳): 本研究では,与えられた最大バッチ数制約の下で,各バッチの終了時にのみ報酬を観測可能な意思決定者が,次のバッチ(現在のバッチの終了時)に含める個人数と,各バッチに採用すべきアクション選択スキームを動的に決定できる,高次元スパース線形コンテキストバンディットにおける動的バッチ学習の問題について検討する。
このようなバッチ制約は、マーケティングにおけるパーソナライズされた製品提供や臨床試験での医療選択など、さまざまな実践的なコンテキストにおいてユビキタスです。
我々は,この問題の基本的な学習限界を,後悔の少ない下限によって特徴づけ,一致する上限(ログファクタまで)を提供し,この問題に最適なスキームを規定する。
我々の知識を最大限に活用するため、我々の研究は、高次元スパース線形文脈バンディットにおける動的バッチ学習の理論的な理解への最初の道筋を提供する。
特に、バッチ制約が存在しない場合でさえ、LASSO推定器を用いた単純な探索自由アルゴリズムは、高次元線形な文脈的包帯の標準オンライン学習において(非マージンの場合)、(高次元の文脈的包帯の新興文献では未知の)最小限の最小限の後悔をすでに達成している。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Batched Nonparametric Contextual Bandits [21.031965676746776]
バッチ制約下での非パラメトリック文脈帯域について検討する。
最適な後悔を実現する新しいバッチ学習アルゴリズムを提案する。
我々の理論的結果は、非パラメトリックな文脈的帯域幅では、ほぼ一定数のポリシー更新が最適な後悔をもたらすことを示唆している。
論文 参考訳(メタデータ) (2024-02-27T18:06:20Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery [76.63807209414789]
我々は,クラスiNCDにおける現状問題に挑戦し,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。
凍結したPTMバックボーンと学習可能な線形分類器から構成される単純なベースラインを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文 参考訳(メタデータ) (2023-02-10T18:45:52Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Parallelizing Contextual Linear Bandits [82.65675585004448]
並列な)コンテキスト線形バンディットアルゴリズムの族を提示し、その遺残はそれらの完全シーケンシャルなアルゴリズムとほぼ同一である。
また,これらの並列アルゴリズムについて,材料発見や生物配列設計の問題など,いくつかの領域で実証評価を行った。
論文 参考訳(メタデータ) (2021-05-21T22:22:02Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Regret Bound Balancing and Elimination for Model Selection in Bandits
and RL [34.15978290083909]
バンディットおよび強化学習問題におけるアルゴリズムの簡易モデル選択手法を提案する。
我々は、このアプローチの総後悔は、最も有効な候補者の後悔の回数が乗算的要因であることを証明します。
線形バンディットのモデル選択における最近の取り組みとは違って,我々のアプローチは,敵の環境によってコンテキスト情報が生成されるケースをカバーできるほど多用途である。
論文 参考訳(メタデータ) (2020-12-24T00:53:42Z) - Sequential Batch Learning in Finite-Action Linear Contextual Bandits [40.01661188919779]
有限作用集合を持つ線形文脈帯域における逐次バッチ学習問題について検討する。
この問題は、実用アプリケーションにおいて、多くのパーソナライズされたシーケンシャルな意思決定問題のよりきめ細かい定式化を提供する。
論文 参考訳(メタデータ) (2020-04-14T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。