論文の概要: An $L^2$ Analysis of Reinforcement Learning in High Dimensions with
Kernel and Neural Network Approximation
- arxiv url: http://arxiv.org/abs/2104.07794v2
- Date: Mon, 19 Apr 2021 00:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:51:16.324217
- Title: An $L^2$ Analysis of Reinforcement Learning in High Dimensions with
Kernel and Neural Network Approximation
- Title(参考訳): カーネルとニューラルネットワーク近似を用いた高次元強化学習の$L^2$の解析
- Authors: Jihao Long, Jiequn Han, Weinan E
- Abstract要約: 本稿では,カーネル法や2層ニューラルネットワークモデルを用いて関数近似を行う状況について考察する。
私たちは$tildeO(H3|mathcal A|frac14n-frac14)$を$Hn$サンプルで最適なポリシーにバインドします。
この結果はまだ有限次元の作用空間を必要とするが、誤差境界は状態空間の次元とは独立である。
- 参考スコア(独自算出の注目度): 9.088303226909277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms based on high-dimensional function
approximation have achieved tremendous empirical success in large-scale
problems with an enormous number of states. However, most analysis of such
algorithms gives rise to error bounds that involve either the number of states
or the number of features. This paper considers the situation where the
function approximation is made either using the kernel method or the two-layer
neural network model, in the context of a fitted Q-iteration algorithm with
explicit regularization. We establish an $\tilde{O}(H^3|\mathcal
{A}|^{\frac14}n^{-\frac14})$ bound for the optimal policy with $Hn$ samples,
where $H$ is the length of each episode and $|\mathcal {A}|$ is the size of
action space. Our analysis hinges on analyzing the $L^2$ error of the
approximated Q-function using $n$ data points. Even though this result still
requires a finite-sized action space, the error bound is independent of the
dimensionality of the state space.
- Abstract(参考訳): 高次元関数近似に基づく強化学習(RL)アルゴリズムは、多数の状態を持つ大規模問題において、大きな経験的成功を収めた。
しかし、そのようなアルゴリズムのほとんどの分析は、状態数と特徴数のいずれかを含む誤差境界を生じる。
本稿では,カーネル法あるいは2層ニューラルネットワークモデルを用いて関数近似を行う状況について,明示的な正規化を伴うQ-イテレーションアルゴリズムを用いて検討する。
我々は、$Hn$サンプルを持つ最適なポリシーに対して$\tilde{O}(H^3|\mathcal {A}|^{\frac14}n^{-\frac14})$を定め、$H$は各エピソードの長さであり、$|\mathcal {A}|$はアクション空間のサイズである。
解析では、近似q関数の$l^2$誤差を$n$データポイントを用いて解析する。
この結果はまだ有限サイズの作用空間を必要とするが、誤差境界は状態空間の次元性とは独立である。
関連論文リスト
- Convergence of Unadjusted Langevin in High Dimensions: Delocalization of Bias [13.642712817536072]
問題の次元が$d$になるにつれて、所望の誤差内で収束を保証するのに必要なイテレーションの数が増加することを示す。
私たちが取り組んだ重要な技術的課題は、収束を測定するための$W_2,ellinfty$メートル法に一段階の縮約性がないことである。
論文 参考訳(メタデータ) (2024-08-20T01:24:54Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Weighted least-squares approximation with determinantal point processes and generalized volume sampling [33.33724208084121]
与えられた$m$-次元空間$V_m$の要素によって、函数を$L2$から近似する問題を考える。
近似は、ほぼ確実に$H$-normで測定された最高の近似誤差によって境界づけられていることを示す。
論文 参考訳(メタデータ) (2023-12-21T17:34:18Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Localization in 1D non-parametric latent space models from pairwise
affinities [6.982738885923206]
対の親和性から一次元トーラスにおける潜伏位置を推定する問題を考察する。
高確率でsqrtlog(n)/n$の順序の最大誤差で全ての潜伏位置を確実にローカライズする推定手順を導入する。
論文 参考訳(メタデータ) (2021-08-06T13:05:30Z) - Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs
with a Generative Model [3.749193647980305]
本稿では,一連の状態対応機能を有するマルコフ決定プロセス(MDP)について考察する。
モデルに基づくアプローチ(resp.$Q-learning)が、高い確率で$varepsilon$-Optimalポリシーを確実に学習することを示す。
論文 参考訳(メタデータ) (2021-05-28T17:49:39Z) - Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。
本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文 参考訳(メタデータ) (2020-12-22T12:59:30Z) - Convergence of Sparse Variational Inference in Gaussian Processes
Regression [29.636483122130027]
計算コストが$mathcalO(log N)2D(log N)2)$の手法を推論に利用できることを示す。
論文 参考訳(メタデータ) (2020-08-01T19:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。