論文の概要: On the Performance of Temporal Difference Learning With Neural Networks
- arxiv url: http://arxiv.org/abs/2312.05397v1
- Date: Fri, 8 Dec 2023 22:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:11:08.896804
- Title: On the Performance of Temporal Difference Learning With Neural Networks
- Title(参考訳): ニューラルネットワークを用いた時間差学習の性能について
- Authors: Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky
- Abstract要約: TD Learningは、関数近似にニューラルネットワークを用いる政策評価のための近似時間差法である。
近似バウンダリが$O(epsilon) + tildeO(1/sqrtm)$であることを示す。
- 参考スコア(独自算出の注目度): 20.721853144434743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Temporal Difference (TD) Learning is an approximate temporal
difference method for policy evaluation that uses a neural network for function
approximation. Analysis of Neural TD Learning has proven to be challenging. In
this paper we provide a convergence analysis of Neural TD Learning with a
projection onto $B(\theta_0, \omega)$, a ball of fixed radius $\omega$ around
the initial point $\theta_0$. We show an approximation bound of $O(\epsilon) +
\tilde{O} (1/\sqrt{m})$ where $\epsilon$ is the approximation quality of the
best neural network in $B(\theta_0, \omega)$ and $m$ is the width of all hidden
layers in the network.
- Abstract(参考訳): ニューラルテンポラル差分学習(Neural Temporal difference, TD)は、関数近似にニューラルネットワークを用いる政策評価の時間差分法である。
神経td学習の分析は困難であることが証明されている。
本稿では、初期点$\theta_0$ の周囲に固定半径$\omega$ の球体である$B(\theta_0, \omega)$ への射影を伴うニューラルTDラーニングの収束解析を行う。
ここでは、$O(\epsilon) + \tilde{O} (1/\sqrt{m})$ ここで、$\epsilon$は、最良のニューラルネットワークの近似品質である$B(\theta_0, \omega)$と$m$は、ネットワーク内のすべての隠された階層の幅である。
関連論文リスト
- The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - An Improved Finite-time Analysis of Temporal Difference Learning with Deep Neural Networks [11.925232472331494]
一般の$L$層ニューラルネットワークを用いて, ニューラルTD法の非漸近解析を改良した。
新しい証明技術が開発され、新しい$tildemathcalO(epsilon-1)$サンプルの複雑さが引き出された。
論文 参考訳(メタデータ) (2024-05-07T05:29:55Z) - Rates of Approximation by ReLU Shallow Neural Networks [8.22379888383833]
隠れたニューロンが$m$のReLU浅部ニューラルネットワークは、H"古い空間からの関数を均一に近似できることを示す。
そのようなレートは$O(m-fracrd)$に非常に近いが、$fracd+2d+4d+4$は、$d$が大きければ1ドルに近いという意味では$O(m-fracrd)$である。
論文 参考訳(メタデータ) (2023-07-24T00:16:50Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Normalization effects on deep neural networks [20.48472873675696]
ニューラルネットワークの出力の統計的挙動に対する$gamma_i$の選択の影響について検討する。
ニューラルネットワークの出力とテスト精度のばらつきの観点からは、$gamma_i$sを1にすることを選択すべきである。
論文 参考訳(メタデータ) (2022-09-02T17:05:55Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Sample Complexity and Overparameterization Bounds for Projection-Free
Neural TD Learning [38.730333068555275]
神経td学習の既存の解析は、無限幅解析または(ランダム)コンパクト集合内のネットワークパラメータの制約に依存している。
poly(overlinenu,1/epsilon)$以上の幅の2層reluネットワークを備えたプロジェクションフリーtd学習は、$poly(overlinenu,1/epsilon)$イテレーションまたはサンプルを与えられたエラー$epsilon$で真の値関数に収束する。
論文 参考訳(メタデータ) (2021-03-02T01:05:19Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。