論文の概要: Sample Complexity of Neural Policy Mirror Descent for Policy
Optimization on Low-Dimensional Manifolds
- arxiv url: http://arxiv.org/abs/2309.13915v2
- Date: Sun, 14 Jan 2024 23:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:36:51.655231
- Title: Sample Complexity of Neural Policy Mirror Descent for Policy
Optimization on Low-Dimensional Manifolds
- Title(参考訳): 低次元多様体上のポリシー最適化のための神経政策ミラー降下のサンプル複雑性
- Authors: Zhenghao Xu, Xiang Ji, Minshuo Chen, Mengdi Wang, Tuo Zhao
- Abstract要約: 深部畳み込みニューラルネットワーク(CNN)を用いたNPMDアルゴリズムのサンプル複雑性について検討した。
NPMDの各イテレーションでは、値関数とポリシーの両方をCNNによってうまく近似することができる。
NPMDは状態空間の低次元構造を利用して次元の呪いから逃れることができることを示す。
- 参考スコア(独自算出の注目度): 75.51968172401394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods equipped with deep neural networks have achieved
great success in solving high-dimensional reinforcement learning (RL) problems.
However, current analyses cannot explain why they are resistant to the curse of
dimensionality. In this work, we study the sample complexity of the neural
policy mirror descent (NPMD) algorithm with deep convolutional neural networks
(CNN). Motivated by the empirical observation that many high-dimensional
environments have state spaces possessing low-dimensional structures, such as
those taking images as states, we consider the state space to be a
$d$-dimensional manifold embedded in the $D$-dimensional Euclidean space with
intrinsic dimension $d\ll D$. We show that in each iteration of NPMD, both the
value function and the policy can be well approximated by CNNs. The
approximation errors are controlled by the size of the networks, and the
smoothness of the previous networks can be inherited. As a result, by properly
choosing the network size and hyperparameters, NPMD can find an
$\epsilon$-optimal policy with $\widetilde{O}(\epsilon^{-\frac{d}{\alpha}-2})$
samples in expectation, where $\alpha\in(0,1]$ indicates the smoothness of
environment. Compared to previous work, our result exhibits that NPMD can
leverage the low-dimensional structure of state space to escape from the curse
of dimensionality, explaining the efficacy of deep policy gradient algorithms.
- Abstract(参考訳): ディープニューラルネットワークを備えたポリシ勾配法は,高次元強化学習(RL)問題を解く上で大きな成功を収めている。
しかし、現在の分析ではなぜそれが次元の呪いに抵抗しているのかは説明できない。
本研究では,深部畳み込みニューラルネットワーク(CNN)を用いたNPMDアルゴリズムのサンプル複雑性について検討する。
多くの高次元環境が、像を状態とするような低次元構造を持つ状態空間を持つという経験的観察に動機づけられ、状態空間は、内在次元 $d\ll d$ を持つ$d$次元ユークリッド空間に埋め込まれた$d$次元多様体であると考える。
NPMDの各イテレーションにおいて、値関数とポリシーの両方がCNNによって適切に近似可能であることを示す。
近似誤差はネットワークのサイズによって制御され、前のネットワークの滑らかさを継承することができる。
その結果、ネットワークサイズとハイパーパラメータを適切に選択することで、npmdは、期待値の$\widetilde{o}(\epsilon^{-\frac{d}{\alpha}-2})$サンプルを持つ$\epsilon$-optimalポリシーを見つけることができ、ここで$\alpha\in(0,1]$は環境の滑らかさを示す。
これまでの研究と比較すると,NPMDは状態空間の低次元構造を利用して次元性の呪いから逃れることができ,深い政策勾配アルゴリズムの有効性が説明できる。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - High-Dimensional Smoothed Entropy Estimation via Dimensionality
Reduction [14.53979700025531]
微分エントロピー$h(X+Z)$を独立に$n$で推定し、同じ分散サンプルを$X$とする。
絶対誤差損失では、上記の問題はパラメータ推定率$fraccDsqrtn$である。
我々は、エントロピー推定の前に主成分分析(PCA)を通して低次元空間に$X$を投影することで、この指数的なサンプル複雑性を克服する。
論文 参考訳(メタデータ) (2023-05-08T13:51:48Z) - Sharp Lower Bounds on Interpolation by Deep ReLU Neural Networks at
Irregularly Spaced Data [2.7195102129095003]
Deep ReLUニューラルネットワークは、距離$delta$で区切られた$N$のデータポイントで値を補間することができる。
我々は$Omega(N)$パラメータが、$delta$が$N$で指数関数的に小さい状態において必要であることを示す。
アプリケーションとして、埋め込みエンドポイントにおけるソボレフ空間に対して、深いReLUニューラルネットワークが達成できる近似率に、低いバウンダリを与える。
論文 参考訳(メタデータ) (2023-02-02T02:46:20Z) - Deep neural network expressivity for optimal stopping problems [2.741266294612776]
最適な停止問題は、最大$varepsilon$の誤差を、最大$kappa dmathfrakq varepsilon-mathfrakr$の深いReLUニューラルネットワークによって近似することができる。
このことは、ディープニューラルネットワークが最適な停止問題を解決するために使用されるとき、次元性の呪いに悩まされないことを証明している。
論文 参考訳(メタデータ) (2022-10-19T10:22:35Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - Besov Function Approximation and Binary Classification on
Low-Dimensional Manifolds Using Convolutional Residual Networks [42.43493635899849]
畳み込み残余ネットワーク(ConvResNet)の理論的保証を関数近似および二項分類の統計的推定の観点から確立する。
その結果,ConvResNetsはデータセットの低次元構造に適応していることがわかった。
論文 参考訳(メタデータ) (2021-09-07T02:58:11Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。