論文の概要: Batched Nonparametric Contextual Bandits
- arxiv url: http://arxiv.org/abs/2402.17732v1
- Date: Tue, 27 Feb 2024 18:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:06:13.655284
- Title: Batched Nonparametric Contextual Bandits
- Title(参考訳): バッチ非パラメトリックなコンテキスト帯域
- Authors: Rong Jiang and Cong Ma
- Abstract要約: バッチ制約下での非パラメトリック文脈帯域について検討する。
本稿では,動的バインディング(BaSEDB)を用いたバッチ逐次除去手法を提案する。
- 参考スコア(独自算出の注目度): 24.846481309031827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study nonparametric contextual bandits under batch constraints, where the
expected reward for each action is modeled as a smooth function of covariates,
and the policy updates are made at the end of each batch of observations. We
establish a minimax regret lower bound for this setting and propose Batched
Successive Elimination with Dynamic Binning (BaSEDB) that achieves optimal
regret (up to logarithmic factors). In essence, BaSEDB dynamically splits the
covariate space into smaller bins, carefully aligning their widths with the
batch size. We also show the suboptimality of static binning under batch
constraints, highlighting the necessity of dynamic binning. Additionally, our
results suggest that a nearly constant number of policy updates can attain
optimal regret in the fully online setting.
- Abstract(参考訳): バッチ制約下での非パラメトリックな文脈的バンディットについて検討し,各アクションに対する期待報奨をコ変数の滑らかな関数としてモデル化し,各バッチの終了時にポリシー更新を行う。
我々は,この設定に対して最小限の後悔を減らし,最適の後悔(対数要因まで)を達成するBatched Successive Elimination with Dynamic Binning(BaSEDB)を提案する。
本質的に、BaSEDBは共変量空間を小さなビンに動的に分割し、その幅とバッチサイズを慎重に調整する。
また,バッチ制約下での静的バイナリの最適性を示し,動的バイナリの必要性を強調する。
さらに、我々の結果は、ほぼ一定数のポリシー更新が、完全にオンライン設定で最適に後悔する可能性があることを示唆している。
関連論文リスト
- Online Continuous Hyperparameter Optimization for Contextual Bandits [82.18146534971156]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において一貫してより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Diversity-Preserving K-Armed Bandits, Revisited [0.0]
本稿では,Celisらによって導入された多様性保全レコメンデーションのための,バンディットに基づくフレームワークについて考察する。
設定の具体的構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての動作に何らかの確率質量を与える場合の自然の場合において、分布依存的後悔を楽しむことを示す。
論文 参考訳(メタデータ) (2020-10-05T09:22:31Z) - Stage-wise Conservative Linear Bandits [37.717532659194426]
オンライン広告や医療実験などのアプリケーションに現れる(未知の)安全制約を考慮に入れた帯域最適化について検討する。
ベースライン制約を尊重し、順序 O(sqrtT log T) の確率的後悔境界を楽しむ2つの新しいアルゴリズムを提案する。
特に、提案アルゴリズムは、様々な問題に対処するために、小さな修正だけで調整できる。
論文 参考訳(メタデータ) (2020-09-30T19:51:37Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Information Directed Sampling for Linear Partial Monitoring [112.05623123909895]
線形報酬と観測構造を持つ部分的監視のための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測性条件に依存する適応的な最悪の後悔率を達成する。
結果がコンテキストおよびカーネル化設定にまで拡張され、アプリケーションの範囲が大幅に増加する。
論文 参考訳(メタデータ) (2020-02-25T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。