論文の概要: Generalized Kernelized Bandits: Self-Normalized Bernstein-Like Dimension-Free Inequality and Regret Bounds
- arxiv url: http://arxiv.org/abs/2508.01681v1
- Date: Sun, 03 Aug 2025 09:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.00428
- Title: Generalized Kernelized Bandits: Self-Normalized Bernstein-Like Dimension-Free Inequality and Regret Bounds
- Title(参考訳): 一般化カーネルバンド:自己Normalized Bernstein-like Dimension-free inequality and Regret bounds
- Authors: Alberto Maria Metelli, Simone Drago, Marco Mussi,
- Abstract要約: 一般化核包括バンド(GKB)の新規設定における後悔問題について検討する。
本稿では,楽観的なアルゴリズムであるGKB-UCBを提案する。
- 参考スコア(独自算出の注目度): 18.662468634576218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the regret minimization problem in the novel setting of generalized kernelized bandits (GKBs), where we optimize an unknown function $f^*$ belonging to a reproducing kernel Hilbert space (RKHS) having access to samples generated by an exponential family (EF) noise model whose mean is a non-linear function $\mu(f^*)$. This model extends both kernelized bandits (KBs) and generalized linear bandits (GLBs). We propose an optimistic algorithm, GKB-UCB, and we explain why existing self-normalized concentration inequalities do not allow to provide tight regret guarantees. For this reason, we devise a novel self-normalized Bernstein-like dimension-free inequality resorting to Freedman's inequality and a stitching argument, which represents a contribution of independent interest. Based on it, we conduct a regret analysis of GKB-UCB, deriving a regret bound of order $\widetilde{O}( \gamma_T \sqrt{T/\kappa_*})$, being $T$ the learning horizon, ${\gamma}_T$ the maximal information gain, and $\kappa_*$ a term characterizing the magnitude the reward nonlinearity. Our result matches, up to multiplicative constants and logarithmic terms, the state-of-the-art bounds for both KBs and GLBs and provides a unified view of both settings.
- Abstract(参考訳): ここでは,非線型関数 $\mu(f^*)$ である指数族 (EF) ノイズモデルにより生成されたサンプルにアクセス可能な再生カーネルヒルベルト空間 (RKHS) に属する未知関数 $f^*$ を最適化する。
このモデルは、カーネル化された帯域幅(KB)と一般化された線形帯域幅(GLB)の両方を拡張する。
本稿では,楽観的なアルゴリズムであるGKB-UCBを提案する。
このような理由から、フリードマンの不等式と、独立した利害の寄与を表す縫合論に基づく、新しい自己正規化されたベルンシュタイン様次元自由不等式を考案する。
これに基づいて、GKB-UCBの残差解析を行い、次数$\widetilde{O}( \gamma_T \sqrt{T/\kappa_*})$、学習地平線$T$、${\gamma}_T$、最大情報ゲイン$\kappa_*$、および報酬非線形性の大きさを特徴づける用語の残差を導出する。
我々の結果は、乗法定数と対数項まで、KBとGLBの両方の最先端境界に一致し、両方の設定を統一したビューを提供する。
関連論文リスト
- Differential Privacy in Kernelized Contextual Bandits via Random Projections [8.658538065693206]
コンテキストによるカーネルの帯域幅の問題について考察する。
基礎となる報酬関数は、既知の再生ケルネルヒルベルト空間に属する。
我々は、$widetildemathcalO(sqrtgamma_TT+fracgamma_Tvarepsilon_mathrmDP)の最先端の累積後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-18T03:54:49Z) - Variance-Optimal Arm Selection: Regret Minimization and Best Arm Identification [3.5502600490147196]
我々は、後悔設定のためのtextttUCB-VV と呼ばれるオンラインアルゴリズムを開発し、制限付き報酬に対する後悔の上限が $mathcalOleft(lognright)$として進化することを示す。
我々は, 試料分散に対する新しい濃度不等式を用いて, フレームワークを有界分布から準ガウス分布に拡張する。
論文 参考訳(メタデータ) (2025-05-17T12:38:23Z) - Differentially Private Kernelized Contextual Bandits [8.658538065693206]
我々は、コンテキスト付きカーネルバンドイットの問題を考える。そこでは、基礎となる報酬関数が既知の再生カーネルヒルベルト空間(RKHS)に属する。
本稿では,技術状況を改善し,$T$クエリの後に$mathcalOleft(sqrtfracgamma_TT + fracgamma_TT varepsilonright)のエラー率を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-13T04:05:19Z) - Nonlinear Stochastic Gradient Descent and Heavy-tailed Noise: A Unified Framework and High-probability Guarantees [56.80920351680438]
本研究では,重音の存在下でのオンライン学習における高確率収束について検討する。
ノイズモーメントを仮定することなく、幅広い種類の非線形性を保証する。
論文 参考訳(メタデータ) (2024-10-17T18:25:28Z) - Achieving Constant Regret in Linear Markov Decision Processes [57.34287648914407]
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔を高い確率で示し、不特定度 $zeta$ が $tildemathcalO(Delta / (sqrtdH2))$ 以下であることを示す。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Generalized Linear Bandits with Limited Adaptivity [12.112051468737596]
限定適応性の制約内における一般化線形文脈帯域問題について検討する。
我々は2つのアルゴリズム, $textttB-GLinCB$ と $textttRS-GLinCB$ を提示した。
論文 参考訳(メタデータ) (2024-04-10T08:47:57Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Adversarial Contextual Bandits Go Kernelized [21.007410990554522]
本研究では、ヒルベルト核空間に属する損失関数を組み込むことにより、逆線形文脈帯域におけるオンライン学習の問題を一般化する。
本稿では,損失関数を推定し,ほぼ最適の後悔の保証を再現するための新しい楽観的偏り推定器を提案する。
論文 参考訳(メタデータ) (2023-10-02T19:59:39Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。