論文の概要: Kernel $\epsilon$-Greedy for Contextual Bandits
- arxiv url: http://arxiv.org/abs/2306.17329v1
- Date: Thu, 29 Jun 2023 22:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:51:49.768916
- Title: Kernel $\epsilon$-Greedy for Contextual Bandits
- Title(参考訳): Kernel $\epsilon$-Greedy for Contextual Bandits
- Authors: Sakshi Arya and Bharath K. Sriperumbudur
- Abstract要約: 我々は文脈的盗賊に対する$epsilon$-greedy戦略のカーネル版を考える。
報奨関数に対するオンライン重み付きカーネルリッジ回帰推定器を提案する。
- 参考スコア(独自算出の注目度): 4.1347433277076036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a kernelized version of the $\epsilon$-greedy strategy for
contextual bandits. More precisely, in a setting with finitely many arms, we
consider that the mean reward functions lie in a reproducing kernel Hilbert
space (RKHS). We propose an online weighted kernel ridge regression estimator
for the reward functions. Under some conditions on the exploration probability
sequence, $\{\epsilon_t\}_t$, and choice of the regularization parameter,
$\{\lambda_t\}_t$, we show that the proposed estimator is consistent. We also
show that for any choice of kernel and the corresponding RKHS, we achieve a
sub-linear regret rate depending on the intrinsic dimensionality of the RKHS.
Furthermore, we achieve the optimal regret rate of $\sqrt{T}$ under a margin
condition for finite-dimensional RKHS.
- Abstract(参考訳): 我々はコンテキスト・バンディットのための$\epsilon$-greedy戦略のカーネル化バージョンを検討する。
より正確には、有限個の腕を持つ集合において、平均報酬関数は再生核ヒルベルト空間(RKHS)にあると考える。
報酬関数に対するオンライン重み付きカーネルリッジ回帰推定器を提案する。
探索確率列 $\{\epsilon_t\}_t$ と正規化パラメータ $\{\lambda_t\}_t$ の選択に関するいくつかの条件の下で、提案する推定器が一貫していることを示す。
また、カーネルと対応するRKHSの任意の選択に対して、RKHSの内在次元に依存するサブ線形後悔率が得られることを示す。
さらに、有限次元 RKHS のマージン条件下での最適後悔率 $\sqrt{T}$ を達成する。
関連論文リスト
- Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - The Minimax Rate of HSIC Estimation for Translation-Invariant Kernels [0.0]
連続有界変換不変特性核を持つガウス環を含むボレル測度に対する$mathbb Rd$のHSIC推定の最小値が$mathcal O!left(n-1/2right)$であることを証明する。
論文 参考訳(メタデータ) (2024-03-12T15:13:21Z) - The $L^\infty$ Learnability of Reproducing Kernel Hilbert Spaces [3.2931415075553576]
カーネル空間の学習可能性(RKHS)を$Linfty$ノルムで解析する。
球面上のドット積核に対しては、ヒルベルトサンプルを用いて$Linfty$学習が達成できる条件を特定する。
論文 参考訳(メタデータ) (2023-06-05T12:29:13Z) - Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - Spectral bounds of the $\varepsilon$-entropy of kernel classes [6.028247638616059]
我々は、メルサー核の$K$によって誘導される再生カーネル空間における単位球の$varepsilon$-エントロピー上の新しい境界を開発する。
提案手法では,RKHSにおける単位球の楕円形構造と,ユークリッド空間における楕円形の個数をカバーした以前の研究を利用する。
論文 参考訳(メタデータ) (2022-04-09T16:45:22Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。