論文の概要: Kernel $ε$-Greedy for Multi-Armed Bandits with Covariates
- arxiv url: http://arxiv.org/abs/2306.17329v2
- Date: Sun, 01 Jun 2025 13:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.749604
- Title: Kernel $ε$-Greedy for Multi-Armed Bandits with Covariates
- Title(参考訳): 共変量をもつ多関節帯域に対するカーネル$ε$-Greedy
- Authors: Sakshi Arya, Bharath K. Sriperumbudur,
- Abstract要約: オンライン重み付きカーネルリッジ回帰推定器を用いて、未知の平均報酬関数を推定する。
カーネルの任意の選択と対応するRKHSに対して、RKHSの内在的次元に依存するサブ線形後悔率を達成することを示す。
- 参考スコア(独自算出の注目度): 5.115048067424624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the $\epsilon$-greedy strategy for the multi-arm bandit with covariates (MABC) problem, where the mean reward functions are assumed to lie in a reproducing kernel Hilbert space (RKHS). We propose to estimate the unknown mean reward functions using an online weighted kernel ridge regression estimator, and show the resultant estimator to be consistent under appropriate decay rates of the exploration probability sequence, $\{\epsilon_t\}_t$, and regularization parameter, $\{\lambda_t\}_t$. Moreover, we show that for any choice of kernel and the corresponding RKHS, we achieve a sub-linear regret rate depending on the intrinsic dimensionality of the RKHS. Furthermore, we achieve the optimal regret rate of $\sqrt{T}$ under a margin condition for finite-dimensional RKHS.
- Abstract(参考訳): 我々は、平均報酬関数が再生カーネルヒルベルト空間(RKHS)に存在すると仮定される、共変量(MABC)問題を伴うマルチアームバンディに対する$\epsilon$-greedy戦略を考える。
本稿では,オンライン重み付きカーネルリッジ回帰推定器を用いて未知の平均報酬関数を推定し,探索確率列の適切な減衰率,$\{\epsilon_t\}_t$,および正規化パラメータ,$\{\lambda_t\}_t$で一致した推定値を示す。
さらに、カーネルと対応するRKHSの任意の選択に対して、RKHSの内在的次元に依存するサブ線形後悔率を達成することを示す。
さらに、有限次元 RKHS のマージン条件下での最適後悔率 $\sqrt{T}$ を達成する。
関連論文リスト
- Differential Privacy in Kernelized Contextual Bandits via Random Projections [8.658538065693206]
コンテキストによるカーネルの帯域幅の問題について考察する。
基礎となる報酬関数は、既知の再生ケルネルヒルベルト空間に属する。
我々は、$widetildemathcalO(sqrtgamma_TT+fracgamma_Tvarepsilon_mathrmDP)の最先端の累積後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-18T03:54:49Z) - A hierarchical Vovk-Azoury-Warmuth forecaster with discounting for online regression in RKHS [0.0]
再生ケルネルヒルベルト空間(RKHS)の時間変化関数列に対する制約のない二次的損失を伴うオンライン回帰問題について検討する。
そこで本研究では,ディスカウント係数とランダムな特徴数の両方を学習する完全適応型階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-27T20:47:52Z) - Differentially Private Kernelized Contextual Bandits [8.658538065693206]
我々は、コンテキスト付きカーネルバンドイットの問題を考える。そこでは、基礎となる報酬関数が既知の再生カーネルヒルベルト空間(RKHS)に属する。
本稿では,技術状況を改善し,$T$クエリの後に$mathcalOleft(sqrtfracgamma_TT + fracgamma_TT varepsilonright)のエラー率を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-13T04:05:19Z) - Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - The Minimax Rate of HSIC Estimation for Translation-Invariant Kernels [0.0]
連続有界変換不変特性核を持つガウス環を含むボレル測度に対する$mathbb Rd$のHSIC推定の最小値が$mathcal O!left(n-1/2right)$であることを証明する。
論文 参考訳(メタデータ) (2024-03-12T15:13:21Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - The $L^\infty$ Learnability of Reproducing Kernel Hilbert Spaces [3.2931415075553576]
カーネル空間の学習可能性(RKHS)を$Linfty$ノルムで解析する。
球面上のドット積核に対しては、ヒルベルトサンプルを用いて$Linfty$学習が達成できる条件を特定する。
論文 参考訳(メタデータ) (2023-06-05T12:29:13Z) - Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Spectral bounds of the $\varepsilon$-entropy of kernel classes [6.028247638616059]
我々は、メルサー核の$K$によって誘導される再生カーネル空間における単位球の$varepsilon$-エントロピー上の新しい境界を開発する。
提案手法では,RKHSにおける単位球の楕円形構造と,ユークリッド空間における楕円形の個数をカバーした以前の研究を利用する。
論文 参考訳(メタデータ) (2022-04-09T16:45:22Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed
Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。
本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。
提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文 参考訳(メタデータ) (2020-10-24T10:44:02Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。