論文の概要: Provably Efficient Kernelized Q-Learning
- arxiv url: http://arxiv.org/abs/2204.10349v1
- Date: Thu, 21 Apr 2022 18:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 03:10:14.014832
- Title: Provably Efficient Kernelized Q-Learning
- Title(参考訳): 効率的なカーネル化q-learning
- Authors: Shuang Liu and Hao Su
- Abstract要約: 本稿では,Q-ラーニングのカーネル化バージョンを提案し,分析する。
任意のカーネルに対する後悔の限界を導出する。
アルゴリズムを古典的な制御タスクのスイートでテストする。
- 参考スコア(独自算出の注目度): 26.37242007290973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and analyze a kernelized version of Q-learning. Although a kernel
space is typically infinite-dimensional, extensive study has shown that
generalization is only affected by the effective dimension of the data. We
incorporate such ideas into the Q-learning framework and derive regret bounds
for arbitrary kernels. In particular, we provide concrete bounds for linear
kernels and Gaussian RBF kernels; notably, the latter bound looks almost
identical to the former, only that the actual dimension is replaced by a
different notion of dimensionality. Finally, we test our algorithm on a suite
of classic control tasks; remarkably, under the Gaussian RBF kernel, it
achieves reasonably good performance after only 1000 environmental steps, while
its neural network counterpart, deep Q-learning, still struggles.
- Abstract(参考訳): 我々は,q-learningのカーネル化版を提案し,解析する。
カーネル空間は通常無限次元であるが、広範な研究により、一般化はデータの有効次元によってのみ影響を受けることが示されている。
このようなアイデアをqラーニングフレームワークに取り入れ,任意のカーネルに対する後悔の限界を導出する。
特に、線型核とガウス RBF 核に対して具体的な境界を提供し、特に後者の境界は前者とほとんど同じように見えるが、実際の次元は次元の異なる概念に置き換えられる。
最後に、我々はアルゴリズムを古典的な制御タスクのスイートでテストし、驚くべきことに、ガウスのRBFカーネルの下では、わずか1000の環境ステップの後、合理的に優れたパフォーマンスを達成しています。
関連論文リスト
- Learning Analysis of Kernel Ridgeless Regression with Asymmetric Kernel Learning [33.34053480377887]
本稿では,局所適応バンド幅(LAB)RBFカーネルを用いたカーネルリッジレスレグレッションを強化する。
初めて、LAB RBFカーネルから学習した関数は、Reproducible Kernel Hilbert Spaces (RKHSs) の積分空間に属することを示した。
論文 参考訳(メタデータ) (2024-06-03T15:28:12Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Learning "best" kernels from data in Gaussian process regression. With
application to aerodynamics [0.4588028371034406]
本稿では,ガウス過程の回帰/クリギングサロゲートモデリング手法におけるカーネルの選択/設計アルゴリズムを紹介する。
アルゴリズムの最初のクラスはカーネルフローであり、機械学習の分類の文脈で導入された。
アルゴリズムの第2のクラスはスペクトル核リッジ回帰と呼ばれ、近似される関数のノルムが最小となるような「最良の」カーネルを選択することを目的としている。
論文 参考訳(メタデータ) (2022-06-03T07:50:54Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - End-to-end Kernel Learning via Generative Random Fourier Features [31.57596752889935]
ランダムフーリエ機能(RFF)は、スペクトルケースでのカーネル学習に有望な方法を提供する。
本稿では,カーネル学習と線形学習を統一フレームワークに組み込む一段階プロセスについて考察する。
論文 参考訳(メタデータ) (2020-09-10T00:27:39Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite
Networks [12.692279981822011]
指数線型単位(ELU)とガウス誤差線形単位(GELU)を持つ多層パーセプトロンの共分散関数を導出する。
我々は、幅広い活性化関数に対応する繰り返しカーネルの固定点ダイナミクスを解析する。
これまで研究されてきたニューラルネットワークカーネルとは異なり、これらの新しいカーネルは非自明な固定点ダイナミクスを示す。
論文 参考訳(メタデータ) (2020-02-20T01:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。