Fugu-MT 論文翻訳(概要): Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits

論文の概要: Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits

arxiv url: http://arxiv.org/abs/2205.09899v1
Date: Thu, 19 May 2022 23:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-23 13:14:44.804919
Title: Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits
Title（参考訳）: $\sqrt{T}$ Barrier: 確率的文脈線形帯域におけるインスタンス独立な対数レグレットを破る
Authors: Avishek Ghosh and Abishek Sankararaman
Abstract要約: 線形ペイオフを伴う文脈的包帯に対する対数的後悔(多元的後悔)を証明した。コンテキストは、$sqrtT$から$polylog(T)$への後悔を減らすのに役立ちます。
参考スコア（独自算出の注目度）: 10.127456032874978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We prove an instance independent (poly) logarithmic regret for stochastic contextual bandits with linear payoff. Previously, in \cite{chu2011contextual}, a lower bound of $\mathcal{O}(\sqrt{T})$ is shown for the contextual linear bandit problem with arbitrary (adversarily chosen) contexts. In this paper, we show that stochastic contexts indeed help to reduce the regret from $\sqrt{T}$ to $\polylog(T)$. We propose Low Regret Stochastic Contextual Bandits (\texttt{LR-SCB}), which takes advantage of the stochastic contexts and performs parameter estimation (in $\ell_2$ norm) and regret minimization simultaneously. \texttt{LR-SCB} works in epochs, where the parameter estimation of the previous epoch is used to reduce the regret of the current epoch. The (poly) logarithmic regret of \texttt{LR-SCB} stems from two crucial facts: (a) the application of a norm adaptive algorithm to exploit the parameter estimation and (b) an analysis of the shifted linear contextual bandit algorithm, showing that shifting results in increasing regret. We have also shown experimentally that stochastic contexts indeed incurs a regret that scales with $\polylog(T)$.
Abstract（参考訳）: 線形ペイオフを伴う確率的文脈的バンディットに対するインスタンス独立(多)対数的後悔を証明する。以前は、$\mathcal{O}(\sqrt{T})$ の下界は任意の(逆選択された)文脈を持つ文脈線形帯域問題に対して示されていた。本稿では,確率的文脈が,その後悔を$\sqrt{T}$から$\polylog(T)$に減らすのに役立つことを示す。本稿では,確率的文脈を活かし,パラメータ推定($\ell_2$ norm)と後悔最小化を同時に行う低レグレト確率的文脈帯域(\texttt{LR-SCB})を提案する。 \textt{lr-scb} は、以前のエポックのパラメータ推定が現在のエポックの後悔を減らすために使用されるエポックで動作する。 texttt{LR-SCB} の(多分)対数的後悔は2つの重要な事実に由来する。 (a)パラメータ推定とパラメータ推定のためのノルム適応アルゴリズムの適用 (b) シフトした線形文脈帯域幅アルゴリズムの解析により, シフトが後悔を増すことを示した。我々はまた、確率的文脈が実際に$\polylog(T)$でスケールする後悔を引き起こすことを実験的に示した。

関連論文リスト

Near-Optimal Regret for KL-Regularized Multi-Armed Bandits [54.77408659142336]
KL正規化目標に対するオンライン学習の統計的効率について検討する。我々は、MABsのKL正規化後悔が$$非依存であることを示し、$tilde(sqrtKT)$とスケールする。
論文参考訳（メタデータ） (2026-03-02T18:17:33Z)
Efficient Simple Regret Algorithms for Stochastic Contextual Bandits [32.5817931126341]
簡単な後悔の目的の下で,文脈的ロジスティックな包帯について検討する。本稿では, 簡単な後悔を解くアルゴリズムを初めて提案する。我々はまた、単純回帰設定に合わせた新しいトンプソンサンプリングの変種も導入する。
論文参考訳（メタデータ） (2026-01-29T02:09:13Z)
Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits [54.220839560203096]
FGTSVA, 変分対応型トンプソンサンプリングアルゴリズムを提案する。新しいデカップリング係数を$mathrmdc$で表すと、FGTS-VAは$tildeO(sqrtmathrmdccdotlog|mathcalF|$)を後悔する。文脈線形帯域の設定において、FGTSVAの後悔境界は UCB ベースと一致する
論文参考訳（メタデータ） (2025-11-03T23:25:41Z)
Dynamic Regret Reduces to Kernelized Static Regret [63.36965242404415]
本研究では,オンライン凸最適化において,任意のベンチマークシーケンスに対して低累積損失を達成することを目的とした動的後悔について検討する。再生ケルネルヒルベルト空間 (RKHS) の形で適切な関数空間を構築することにより、最適$R_T(u_1,ldots,u_T) = MathcalO(sqrtsum_t|u_t-u_t-1|T)$ dynamic regret guarantee。
論文参考訳（メタデータ） (2025-07-07T21:09:33Z)
A conversion theorem and minimax optimality for continuum contextual bandits [70.71582850199871]
本研究では,学習者が側情報ベクトルを逐次受信し,凸集合内の行動を選択する,文脈連続帯域幅問題について検討する。目標は、受信したコンテキストのすべての基盤関数を最小化することです。サブ線形の静的な後悔を達成するアルゴリズムを拡張して、サブ線形の文脈的後悔を実現することができることを示す。
論文参考訳（メタデータ） (2024-06-09T10:12:08Z)
An Equivalence Between Static and Dynamic Regret Minimization [10.812831455376218]
線形損失に対して、動的後悔最小化は、拡張決定空間における静的後悔最小化と等価であることを示す。 R_T(u_1,dots,u_T)le tildeという形式の動的後悔を保証するアルゴリズムを提供する。
論文参考訳（メタデータ） (2024-06-03T17:54:58Z)
LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits [38.41164102066483]
本研究では、独立かつ同一に分散したコンテキストを持つ線形文脈帯域問題について考察する。提案アルゴリズムは、Tsallisエントロピーを持つFollow-The-Regularized-Leaderに基づいており、$alpha$-textual-Con (LC)-Tsallis-INFと呼ばれている。
論文参考訳（メタデータ） (2024-03-05T18:59:47Z)
Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。 G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文参考訳（メタデータ） (2024-01-14T14:14:19Z)
Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文参考訳（メタデータ） (2023-10-02T08:15:52Z)
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。 V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文参考訳（メタデータ） (2023-05-01T14:00:15Z)
Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文参考訳（メタデータ） (2023-03-05T15:11:14Z)
Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文参考訳（メタデータ） (2021-02-06T15:05:14Z)
Doubly robust Thompson sampling for linear payoffs [12.375561840897742]
本稿では,Douubly Robust (DR) Thompson Sampling と呼ばれる新しいマルチアームコンテキスト帯域幅アルゴリズムを提案する。提案アルゴリズムは, 新たな補遺分解を許容し, $tildeO(phi-2sqrtT)$の順序で補遺を改良する。
論文参考訳（メタデータ） (2021-02-01T23:31:10Z)
Thresholded Lasso Bandit [70.17389393497125]
Thresholded Lasso banditは、報酬関数を定義するベクトルとスパースサポートを推定するアルゴリズムである。一般には $mathcalO( log d + sqrtT )$ や $mathcalO( log d + sqrtT )$ としてスケールする非漸近的後悔の上界を確立する。
論文参考訳（メタデータ） (2020-10-22T19:14:37Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。