Fugu-MT 論文翻訳(概要): Batched Nonparametric Contextual Bandits

論文の概要: Batched Nonparametric Contextual Bandits

arxiv url: http://arxiv.org/abs/2402.17732v2
Date: Mon, 10 Jun 2024 21:10:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 22:22:49.719546
Title: Batched Nonparametric Contextual Bandits
Title（参考訳）: バッチ非パラメトリックなコンテキスト帯域
Authors: Rong Jiang, Cong Ma,
Abstract要約: バッチ制約下での非パラメトリック文脈帯域について検討する。最適な後悔を実現する新しいバッチ学習アルゴリズムを提案する。我々の理論的結果は、非パラメトリックな文脈的帯域幅では、ほぼ一定数のポリシー更新が最適な後悔をもたらすことを示唆している。
参考スコア（独自算出の注目度）: 21.031965676746776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study nonparametric contextual bandits under batch constraints, where the expected reward for each action is modeled as a smooth function of covariates, and the policy updates are made at the end of each batch of observations. We establish a minimax regret lower bound for this setting and propose a novel batch learning algorithm that achieves the optimal regret (up to logarithmic factors). In essence, our procedure dynamically splits the covariate space into smaller bins, carefully aligning their widths with the batch size. Our theoretical results suggest that for nonparametric contextual bandits, a nearly constant number of policy updates can attain optimal regret in the fully online setting.
Abstract（参考訳）: 本研究では,各行動に対する期待される報酬を共変量のスムーズな関数としてモデル化したバッチ制約下での非パラメトリック文脈帯域について検討し,各観測結果の最後にポリシー更新を行う。我々は,この設定に対して最小限の後悔を減らし,最適な後悔(対数的要因まで)を達成する新しいバッチ学習アルゴリズムを提案する。本質的に、我々の手順は共変量空間をより小さなビンに動的に分割し、その幅とバッチサイズを慎重に調整する。我々の理論的結果は、非パラメトリックな文脈的帯域幅では、ほぼ一定数のポリシー更新が、完全なオンライン設定において最適な後悔をもたらすことを示唆している。

関連論文リスト

Batched Nonparametric Bandits via k-Nearest Neighbor UCB [0.0]
バッチ化された非パラメトリックな文脈的包帯における逐次的意思決定について検討する。適応的k-アネレスト近傍(k-NN)回帰と上位信頼境界(UCB)の原理を組み合わせた非パラメトリックアルゴリズムを提案する。提案手法であるBaNk-UCBは完全に非パラメトリックであり,コンテキスト次元に適応し,実装が簡単である。
論文参考訳（メタデータ） (2025-05-15T17:00:51Z)
Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning rates [61.091122503406304]
勾配帯域幅アルゴリズムは, 経験的定値学習率を用いて, ほぼ確実にグローバルな最適ポリシーに収束することを示す。この結果は、標準の滑らかさと騒音制御の仮定が崩壊するシナリオにおいても、勾配アルゴリズムが適切な探索と利用のバランスを保ち続けていることを証明している。
論文参考訳（メタデータ） (2025-02-11T00:12:04Z)
A conversion theorem and minimax optimality for continuum contextual bandits [70.71582850199871]
本研究では,学習者が側情報ベクトルを逐次受信し,凸集合内の行動を選択する,文脈連続帯域幅問題について検討する。目標は、受信したコンテキストのすべての基盤関数を最小化することです。サブ線形の静的な後悔を達成するアルゴリズムを拡張して、サブ線形の文脈的後悔を実現することができることを示す。
論文参考訳（メタデータ） (2024-06-09T10:12:08Z)
Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization [29.579719765255927]
本稿では,文脈的帯域幅設定のための効率的な帯域幅アルゴリズムのファミリーを提案する。我々のアルゴリズムは任意の関数クラスで動作し、不特定性をモデル化するのに堅牢で、連続したアーム設定で使用できます。
論文参考訳（メタデータ） (2023-07-05T08:34:54Z)
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-02-18T23:31:20Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
Parallelizing Contextual Linear Bandits [82.65675585004448]
並列な)コンテキスト線形バンディットアルゴリズムの族を提示し、その遺残はそれらの完全シーケンシャルなアルゴリズムとほぼ同一である。また,これらの並列アルゴリズムについて,材料発見や生物配列設計の問題など,いくつかの領域で実証評価を行った。
論文参考訳（メタデータ） (2021-05-21T22:22:02Z)
Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。 BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文参考訳（メタデータ） (2021-02-25T17:36:44Z)
Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文参考訳（メタデータ） (2020-11-01T17:59:19Z)
Stage-wise Conservative Linear Bandits [37.717532659194426]
オンライン広告や医療実験などのアプリケーションに現れる(未知の)安全制約を考慮に入れた帯域最適化について検討する。ベースライン制約を尊重し、順序 O(sqrtT log T) の確率的後悔境界を楽しむ2つの新しいアルゴリズムを提案する。特に、提案アルゴリズムは、様々な問題に対処するために、小さな修正だけで調整できる。
論文参考訳（メタデータ） (2020-09-30T19:51:37Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)
Sequential Batch Learning in Finite-Action Linear Contextual Bandits [40.01661188919779]
有限作用集合を持つ線形文脈帯域における逐次バッチ学習問題について検討する。この問題は、実用アプリケーションにおいて、多くのパーソナライズされたシーケンシャルな意思決定問題のよりきめ細かい定式化を提供する。
論文参考訳（メタデータ） (2020-04-14T06:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。