論文の概要: Kernel $ε$-Greedy for Multi-Armed Bandits with Covariates
- arxiv url: http://arxiv.org/abs/2306.17329v2
- Date: Sun, 01 Jun 2025 13:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.749604
- Title: Kernel $ε$-Greedy for Multi-Armed Bandits with Covariates
- Title(参考訳): 共変量をもつ多関節帯域に対するカーネル$ε$-Greedy
- Authors: Sakshi Arya, Bharath K. Sriperumbudur,
- Abstract要約: オンライン重み付きカーネルリッジ回帰推定器を用いて、未知の平均報酬関数を推定する。
カーネルの任意の選択と対応するRKHSに対して、RKHSの内在的次元に依存するサブ線形後悔率を達成することを示す。
- 参考スコア(独自算出の注目度): 5.115048067424624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the $\epsilon$-greedy strategy for the multi-arm bandit with covariates (MABC) problem, where the mean reward functions are assumed to lie in a reproducing kernel Hilbert space (RKHS). We propose to estimate the unknown mean reward functions using an online weighted kernel ridge regression estimator, and show the resultant estimator to be consistent under appropriate decay rates of the exploration probability sequence, $\{\epsilon_t\}_t$, and regularization parameter, $\{\lambda_t\}_t$. Moreover, we show that for any choice of kernel and the corresponding RKHS, we achieve a sub-linear regret rate depending on the intrinsic dimensionality of the RKHS. Furthermore, we achieve the optimal regret rate of $\sqrt{T}$ under a margin condition for finite-dimensional RKHS.
- Abstract(参考訳): 我々は、平均報酬関数が再生カーネルヒルベルト空間(RKHS)に存在すると仮定される、共変量(MABC)問題を伴うマルチアームバンディに対する$\epsilon$-greedy戦略を考える。
本稿では,オンライン重み付きカーネルリッジ回帰推定器を用いて未知の平均報酬関数を推定し,探索確率列の適切な減衰率,$\{\epsilon_t\}_t$,および正規化パラメータ,$\{\lambda_t\}_t$で一致した推定値を示す。
さらに、カーネルと対応するRKHSの任意の選択に対して、RKHSの内在的次元に依存するサブ線形後悔率を達成することを示す。
さらに、有限次元 RKHS のマージン条件下での最適後悔率 $\sqrt{T}$ を達成する。
関連論文リスト
- Differentially Private Kernelized Contextual Bandits [8.658538065693206]
我々は、コンテキスト付きカーネルバンドイットの問題を考える。そこでは、基礎となる報酬関数が既知の再生カーネルヒルベルト空間(RKHS)に属する。
本稿では,技術状況を改善し,$T$クエリの後に$mathcalOleft(sqrtfracgamma_TT + fracgamma_TT varepsilonright)のエラー率を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-13T04:05:19Z) - Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - The Minimax Rate of HSIC Estimation for Translation-Invariant Kernels [0.0]
連続有界変換不変特性核を持つガウス環を含むボレル測度に対する$mathbb Rd$のHSIC推定の最小値が$mathcal O!left(n-1/2right)$であることを証明する。
論文 参考訳(メタデータ) (2024-03-12T15:13:21Z) - The $L^\infty$ Learnability of Reproducing Kernel Hilbert Spaces [3.2931415075553576]
カーネル空間の学習可能性(RKHS)を$Linfty$ノルムで解析する。
球面上のドット積核に対しては、ヒルベルトサンプルを用いて$Linfty$学習が達成できる条件を特定する。
論文 参考訳(メタデータ) (2023-06-05T12:29:13Z) - Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - Spectral bounds of the $\varepsilon$-entropy of kernel classes [6.028247638616059]
我々は、メルサー核の$K$によって誘導される再生カーネル空間における単位球の$varepsilon$-エントロピー上の新しい境界を開発する。
提案手法では,RKHSにおける単位球の楕円形構造と,ユークリッド空間における楕円形の個数をカバーした以前の研究を利用する。
論文 参考訳(メタデータ) (2022-04-09T16:45:22Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。