論文の概要: Kernelized Reinforcement Learning with Order Optimal Regret Bounds
- arxiv url: http://arxiv.org/abs/2306.07745v3
- Date: Thu, 14 Mar 2024 13:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 03:02:59.029972
- Title: Kernelized Reinforcement Learning with Order Optimal Regret Bounds
- Title(参考訳): 順序最適回帰境界を用いたカーネル化強化学習
- Authors: Sattar Vakili, Julia Olkhovskaya,
- Abstract要約: $pi$KRVI は最小自明なヒルベルト二乗値の楽観的な修正である。
我々は、一般的な設定の下で、最初の順序最適後悔保証を証明します。
マタン核の場合、順序が最適である部分線型後悔境界を示す。
- 参考スコア(独自算出の注目度): 11.024396385514864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown empirical success in various real world settings with complex models and large state-action spaces. The existing analytical results, however, typically focus on settings with a small number of state-actions or simple models such as linearly modeled state-action value functions. To derive RL policies that efficiently handle large state-action spaces with more general value functions, some recent works have considered nonlinear function approximation using kernel ridge regression. We propose $\pi$-KRVI, an optimistic modification of least-squares value iteration, when the state-action value function is represented by a reproducing kernel Hilbert space (RKHS). We prove the first order-optimal regret guarantees under a general setting. Our results show a significant polynomial in the number of episodes improvement over the state of the art. In particular, with highly non-smooth kernels (such as Neural Tangent kernel or some Mat\'ern kernels) the existing results lead to trivial (superlinear in the number of episodes) regret bounds. We show a sublinear regret bound that is order optimal in the case of Mat\'ern kernels where a lower bound on regret is known.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、複雑なモデルと大きな状態行動空間を持つ様々な実世界の環境において経験的な成功を示している。
しかし、既存の分析結果は通常、少数の状態アクションや線形モデル化された状態アクション値関数のような単純なモデルによる設定に焦点を当てる。
より一般的な値関数を持つ大きな状態-作用空間を効率的に処理するRLポリシーを導出するために、最近の研究では、カーネルリッジ回帰を用いた非線形関数近似が検討されている。
状態-作用値関数が再生カーネルヒルベルト空間(RKHS)で表されるとき、最小二乗値反復の楽観的な修正である$\pi$-KRVIを提案する。
我々は、一般的な設定の下で、最初の順序最適後悔保証を証明します。
以上の結果より, エピソード数の改善に有意な多項式が認められた。
特に、非常に非滑らかなカーネル(Neural Tangent kernel や Mat\'ern kernel など)では、既存の結果は自明な(エピソード数で超直線的な)後悔境界に繋がる。
マトエルン核の場合、後悔の低い境界が知られている場合、順序が最適である部分線型後悔境界を示す。
関連論文リスト
- Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Learning Analysis of Kernel Ridgeless Regression with Asymmetric Kernel Learning [33.34053480377887]
本稿では,局所適応バンド幅(LAB)RBFカーネルを用いたカーネルリッジレスレグレッションを強化する。
初めて、LAB RBFカーネルから学習した関数は、Reproducible Kernel Hilbert Spaces (RKHSs) の積分空間に属することを示した。
論文 参考訳(メタデータ) (2024-06-03T15:28:12Z) - Adversarial Contextual Bandits Go Kernelized [21.007410990554522]
本研究では、ヒルベルト核空間に属する損失関数を組み込むことにより、逆線形文脈帯域におけるオンライン学習の問題を一般化する。
本稿では,損失関数を推定し,ほぼ最適の後悔の保証を再現するための新しい楽観的偏り推定器を提案する。
論文 参考訳(メタデータ) (2023-10-02T19:59:39Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Experimental Design for Linear Functionals in Reproducing Kernel Hilbert
Spaces [102.08678737900541]
線形汎関数に対するバイアス認識設計のためのアルゴリズムを提供する。
準ガウス雑音下での固定および適応設計に対する漸近的でない信頼集合を導出する。
論文 参考訳(メタデータ) (2022-05-26T20:56:25Z) - Value Function Approximations via Kernel Embeddings for No-Regret
Reinforcement Learning [10.828727066443909]
我々は,CME-RLというオンラインモデルに基づくRLアルゴリズムを提案し,Hilbert空間への埋め込みとして遷移分布の表現を学習する。
絶対定数と多対数係数のみを隠蔽する次数$tildeObig(Hgamma_NsqrtNbig)$footnote $tildeO(cdot)$の頻繁な(Worst-case)後悔境界を証明してアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-16T11:40:55Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Early stopping and polynomial smoothing in regression with reproducing kernels [2.0411082897313984]
再生カーネルヒルベルト空間(RKHS)における反復学習アルゴリズムの早期停止問題について検討する。
本稿では,いわゆる最小不一致原理に基づく検証セットを使わずに早期停止を行うデータ駆動型ルールを提案する。
提案したルールは、異なるタイプのカーネル空間に対して、ミニマックス最適であることが証明されている。
論文 参考訳(メタデータ) (2020-07-14T05:27:18Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - RFN: A Random-Feature Based Newton Method for Empirical Risk
Minimization in Reproducing Kernel Hilbert Spaces [14.924672048447334]
大規模な有限サム問題はニュートン法の効率的な変種を用いて解くことができ、ヘッセンはデータのサブサンプルによって近似される。
本稿では,このような問題に対して,ニュートン法を高速化するためにカーネル近似を自然に利用できることを考察する。
局所超線型収束と大域線形収束を両立させる新しい2次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-12T01:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。