論文の概要: Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration
- arxiv url: http://arxiv.org/abs/2209.07376v1
- Date: Thu, 15 Sep 2022 15:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:17:36.518508
- Title: Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration
- Title(参考訳): $\epsilon$-Greedyによる強化学習における深部神経機能近似の理解
- Authors: Fanghui Liu, Luca Viano, Volkan Cevher
- Abstract要約: 本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
- 参考スコア(独自算出の注目度): 53.90873926758026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a theoretical study of deep neural function approximation
in reinforcement learning (RL) with the $\epsilon$-greedy exploration under the
online setting. This problem setting is motivated by the successful deep
Q-networks (DQN) framework that falls in this regime. In this work, we provide
an initial attempt on theoretical understanding deep RL from the perspective of
function class and neural networks architectures (e.g., width and depth) beyond
the "linear" regime. To be specific, we focus on the value based algorithm with
the $\epsilon$-greedy exploration via deep (and two-layer) neural networks
endowed by Besov (and Barron) function spaces, respectively, which aims at
approximating an $\alpha$-smooth Q-function in a $d$-dimensional feature space.
We prove that, with $T$ episodes, scaling the width $m =
\widetilde{\mathcal{O}}(T^{\frac{d}{2\alpha + d}})$ and the depth
$L=\mathcal{O}(\log T)$ of the neural network for deep RL is sufficient for
learning with sublinear regret in Besov spaces. Moreover, for a two layer
neural network endowed by the Barron space, scaling the width
$\Omega(\sqrt{T})$ is sufficient. To achieve this, the key issue in our
analysis is how to estimate the temporal difference error under deep neural
function approximation as the $\epsilon$-greedy exploration is not enough to
ensure "optimism". Our analysis reformulates the temporal difference error in
an $L^2(\mathrm{d}\mu)$-integrable space over a certain averaged measure $\mu$,
and transforms it to a generalization problem under the non-iid setting. This
might have its own interest in RL theory for better understanding
$\epsilon$-greedy exploration in deep RL.
- Abstract(参考訳): 本稿では,強化学習(RL)における深部神経機能近似の理論的研究と,オンライン環境下での$\epsilon$-greedy探索について述べる。
この問題設定は、この体制に該当するDQN(Deep Q-networks)フレームワークの成功によって動機付けられます。
本研究では、関数クラスとニューラルネットワークアーキテクチャ(例えば、幅と深さ)の観点からの深いRLの理論的理解を「線形」体制を超えて初めて試みる。
具体的には、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$\epsilon$-greedy探索を、$d$次元の特徴空間で$\alpha$-smooth Q-functionを近似することを目的とした、バリューベースアルゴリズムに焦点を当てる。
我々は、$T$エピソードにおいて、幅$m = \widetilde{\mathcal{O}}(T^{\frac{d}{2\alpha + d}})$と深さ$L=\mathcal{O}(\log T)$をスケーリングすると、深いRLのためのニューラルネットワークはベソフ空間におけるサブ線形後悔を学習するのに十分であることを示す。
さらに、バロン空間によって与えられる2層ニューラルネットワークでは、幅$\Omega(\sqrt{T})$のスケーリングが十分である。
これを実現するために、我々は、深い神経機能近似の下で時間差誤差を推定する方法を、$\epsilon$-greedyの探索では「最適化」を保証するには不十分である。
我々の解析は、ある平均測度$\mu$上の$L^2(\mathrm{d}\mu)$-可積分空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
これは、深いRLにおける$\epsilon$-greedyの探索をよりよく理解するために、RL理論に独自の関心を持つかもしれない。
関連論文リスト
- Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Mathematical Models of Computation in Superposition [0.9374652839580183]
重ね合わせは、現在のAIシステムを機械的に解釈する上で深刻な課題となる。
重ね合わせにおけるエンフン計算の数学的モデルを提案し, 重ね合わせはタスクを効率的に遂行するのに有効である。
我々は、重ね合わせで計算を実装するニューラルネットワークを解釈する研究の潜在的な応用について、結論付けている。
論文 参考訳(メタデータ) (2024-08-10T06:11:48Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Sample Complexity of Neural Policy Mirror Descent for Policy
Optimization on Low-Dimensional Manifolds [75.51968172401394]
深部畳み込みニューラルネットワーク(CNN)を用いたNPMDアルゴリズムのサンプル複雑性について検討した。
NPMDの各イテレーションでは、値関数とポリシーの両方をCNNによってうまく近似することができる。
NPMDは状態空間の低次元構造を利用して次元の呪いから逃れることができることを示す。
論文 参考訳(メタデータ) (2023-09-25T07:31:22Z) - Rates of Approximation by ReLU Shallow Neural Networks [8.22379888383833]
隠れたニューロンが$m$のReLU浅部ニューラルネットワークは、H"古い空間からの関数を均一に近似できることを示す。
そのようなレートは$O(m-fracrd)$に非常に近いが、$fracd+2d+4d+4$は、$d$が大きければ1ドルに近いという意味では$O(m-fracrd)$である。
論文 参考訳(メタデータ) (2023-07-24T00:16:50Z) - An $L^2$ Analysis of Reinforcement Learning in High Dimensions with
Kernel and Neural Network Approximation [9.088303226909277]
本稿では,カーネル法や2層ニューラルネットワークモデルを用いて関数近似を行う状況について考察する。
私たちは$tildeO(H3|mathcal A|frac14n-frac14)$を$Hn$サンプルで最適なポリシーにバインドします。
この結果はまだ有限次元の作用空間を必要とするが、誤差境界は状態空間の次元とは独立である。
論文 参考訳(メタデータ) (2021-04-15T21:59:03Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Optimal Lottery Tickets via SubsetSum: Logarithmic Over-Parameterization
is Sufficient [9.309655246559094]
幅$d$と深さ$l$の任意のターゲットネットワークは、幅$O(log(dl))$の2倍、幅$O(log(dl))$のランダムネットワークを切断することで近似できることを示す。
解析は、プルーニングランダムなReLUネットワークをtextscSubset問題のランダムなインスタンスに接続することに依存する。
論文 参考訳(メタデータ) (2020-06-14T19:32:10Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。