Fugu-MT 論文翻訳(概要): Kernel $\epsilon$-Greedy for Contextual Bandits

論文の概要: Kernel $\epsilon$-Greedy for Contextual Bandits

arxiv url: http://arxiv.org/abs/2306.17329v1
Date: Thu, 29 Jun 2023 22:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 13:51:49.768916
Title: Kernel $\epsilon$-Greedy for Contextual Bandits
Title（参考訳）: Kernel $\epsilon$-Greedy for Contextual Bandits
Authors: Sakshi Arya and Bharath K. Sriperumbudur
Abstract要約: 我々は文脈的盗賊に対する$epsilon$-greedy戦略のカーネル版を考える。報奨関数に対するオンライン重み付きカーネルリッジ回帰推定器を提案する。
参考スコア（独自算出の注目度）: 4.1347433277076036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider a kernelized version of the $\epsilon$-greedy strategy for contextual bandits. More precisely, in a setting with finitely many arms, we consider that the mean reward functions lie in a reproducing kernel Hilbert space (RKHS). We propose an online weighted kernel ridge regression estimator for the reward functions. Under some conditions on the exploration probability sequence, $\{\epsilon_t\}_t$, and choice of the regularization parameter, $\{\lambda_t\}_t$, we show that the proposed estimator is consistent. We also show that for any choice of kernel and the corresponding RKHS, we achieve a sub-linear regret rate depending on the intrinsic dimensionality of the RKHS. Furthermore, we achieve the optimal regret rate of $\sqrt{T}$ under a margin condition for finite-dimensional RKHS.
Abstract（参考訳）: 我々はコンテキスト・バンディットのための$\epsilon$-greedy戦略のカーネル化バージョンを検討する。より正確には、有限個の腕を持つ集合において、平均報酬関数は再生核ヒルベルト空間(RKHS)にあると考える。報酬関数に対するオンライン重み付きカーネルリッジ回帰推定器を提案する。探索確率列 $\{\epsilon_t\}_t$ と正規化パラメータ $\{\lambda_t\}_t$ の選択に関するいくつかの条件の下で、提案する推定器が一貫していることを示す。また、カーネルと対応するRKHSの任意の選択に対して、RKHSの内在次元に依存するサブ線形後悔率が得られることを示す。さらに、有限次元 RKHS のマージン条件下での最適後悔率 $\sqrt{T}$ を達成する。

関連論文リスト

Differential Privacy in Kernelized Contextual Bandits via Random Projections [8.658538065693206]
コンテキストによるカーネルの帯域幅の問題について考察する。基礎となる報酬関数は、既知の再生ケルネルヒルベルト空間に属する。我々は、$widetildemathcalO(sqrtgamma_TT+fracgamma_Tvarepsilon_mathrmDP)の最先端の累積後悔を実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-18T03:54:49Z)
A hierarchical Vovk-Azoury-Warmuth forecaster with discounting for online regression in RKHS [0.0]
再生ケルネルヒルベルト空間(RKHS)の時間変化関数列に対する制約のない二次的損失を伴うオンライン回帰問題について検討する。そこで本研究では,ディスカウント係数とランダムな特徴数の両方を学習する完全適応型階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-27T20:47:52Z)
Differentially Private Kernelized Contextual Bandits [8.658538065693206]
我々は、コンテキスト付きカーネルバンドイットの問題を考える。そこでは、基礎となる報酬関数が既知の再生カーネルヒルベルト空間(RKHS)に属する。本稿では,技術状況を改善し,$T$クエリの後に$mathcalOleft(sqrtfracgamma_TT + fracgamma_TT varepsilonright)のエラー率を実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-13T04:05:19Z)
Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文参考訳（メタデータ） (2024-10-14T04:51:06Z)
The Minimax Rate of HSIC Estimation for Translation-Invariant Kernels [0.0]
連続有界変換不変特性核を持つガウス環を含むボレル測度に対する$mathbb Rd$のHSIC推定の最小値が$mathcal O!left(n-1/2right)$であることを証明する。
論文参考訳（メタデータ） (2024-03-12T15:13:21Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
The $L^\infty$ Learnability of Reproducing Kernel Hilbert Spaces [3.2931415075553576]
カーネル空間の学習可能性(RKHS)を$Linfty$ノルムで解析する。球面上のドット積核に対しては、ヒルベルトサンプルを用いて$Linfty$学習が達成できる条件を特定する。
論文参考訳（メタデータ） (2023-06-05T12:29:13Z)
Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文参考訳（メタデータ） (2023-05-15T05:37:32Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
Spectral bounds of the $\varepsilon$-entropy of kernel classes [6.028247638616059]
我々は、メルサー核の$K$によって誘導される再生カーネル空間における単位球の$varepsilon$-エントロピー上の新しい境界を開発する。提案手法では,RKHSにおける単位球の楕円形構造と,ユークリッド空間における楕円形の個数をカバーした以前の研究を利用する。
論文参考訳（メタデータ） (2022-04-09T16:45:22Z)
Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文参考訳（メタデータ） (2022-02-01T17:46:51Z)
Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文参考訳（メタデータ） (2021-11-09T09:00:02Z)
Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。 MRP のサブクラスに対する minimax の下位境界を証明する。
論文参考訳（メタデータ） (2021-09-24T14:48:20Z)
Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文参考訳（メタデータ） (2020-11-02T14:59:39Z)
Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文参考訳（メタデータ） (2020-10-24T10:44:02Z)
Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文参考訳（メタデータ） (2020-04-12T12:23:46Z)
Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文参考訳（メタデータ） (2020-01-27T03:44:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。