Fugu-MT 論文翻訳(概要): On the Performance of Temporal Difference Learning With Neural Networks

論文の概要: On the Performance of Temporal Difference Learning With Neural Networks

arxiv url: http://arxiv.org/abs/2312.05397v1
Date: Fri, 8 Dec 2023 22:34:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 21:11:08.896804
Title: On the Performance of Temporal Difference Learning With Neural Networks
Title（参考訳）: ニューラルネットワークを用いた時間差学習の性能について
Authors: Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky
Abstract要約: TD Learningは、関数近似にニューラルネットワークを用いる政策評価のための近似時間差法である。近似バウンダリが$O(epsilon) + tildeO(1/sqrtm)$であることを示す。
参考スコア（独自算出の注目度）: 20.721853144434743
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural Temporal Difference (TD) Learning is an approximate temporal difference method for policy evaluation that uses a neural network for function approximation. Analysis of Neural TD Learning has proven to be challenging. In this paper we provide a convergence analysis of Neural TD Learning with a projection onto $B(\theta_0, \omega)$, a ball of fixed radius $\omega$ around the initial point $\theta_0$. We show an approximation bound of $O(\epsilon) + \tilde{O} (1/\sqrt{m})$ where $\epsilon$ is the approximation quality of the best neural network in $B(\theta_0, \omega)$ and $m$ is the width of all hidden layers in the network.
Abstract（参考訳）: ニューラルテンポラル差分学習(Neural Temporal difference, TD)は、関数近似にニューラルネットワークを用いる政策評価の時間差分法である。神経td学習の分析は困難であることが証明されている。本稿では、初期点$\theta_0$ の周囲に固定半径$\omega$ の球体である$B(\theta_0, \omega)$ への射影を伴うニューラルTDラーニングの収束解析を行う。ここでは、$O(\epsilon) + \tilde{O} (1/\sqrt{m})$ ここで、$\epsilon$は、最良のニューラルネットワークの近似品質である$B(\theta_0, \omega)$と$m$は、ネットワーク内のすべての隠された階層の幅である。

関連論文リスト

The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-10-06T22:30:14Z)
Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文参考訳（メタデータ） (2024-09-10T14:31:21Z)
Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文参考訳（メタデータ） (2024-05-26T17:08:04Z)
An Improved Finite-time Analysis of Temporal Difference Learning with Deep Neural Networks [11.925232472331494]
一般の$L$層ニューラルネットワークを用いて, ニューラルTD法の非漸近解析を改良した。新しい証明技術が開発され、新しい$tildemathcalO(epsilon-1)$サンプルの複雑さが引き出された。
論文参考訳（メタデータ） (2024-05-07T05:29:55Z)
Rates of Approximation by ReLU Shallow Neural Networks [8.22379888383833]
隠れたニューロンが$m$のReLU浅部ニューラルネットワークは、H"古い空間からの関数を均一に近似できることを示す。そのようなレートは$O(m-fracrd)$に非常に近いが、$fracd+2d+4d+4$は、$d$が大きければ1ドルに近いという意味では$O(m-fracrd)$である。
論文参考訳（メタデータ） (2023-07-24T00:16:50Z)
Generalization Ability of Wide Neural Networks on $\mathbb{R}$ [8.508360765158326]
広い2層ReLUニューラルネットワークのmathbbR$上での一般化能力について検討した。 $i)$幅$mrightarrowinfty$のとき、ニューラルネットワークカーネル(NNK)がNTKに均一に収束すると、$ii)$$$$K_1$のRKHSに対する回帰の最小値が$n-2/3$;$iii)$ 広義のニューラルネットワークをトレーニングする際に早期停止戦略を採用する場合、$ivとなる。
論文参考訳（メタデータ） (2023-02-12T15:07:27Z)
The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文参考訳（メタデータ） (2022-12-23T04:48:04Z)
Understanding Deep Neural Function Approximation in Reinforcement Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文参考訳（メタデータ） (2022-09-15T15:42:47Z)
Normalization effects on deep neural networks [20.48472873675696]
ニューラルネットワークの出力の統計的挙動に対する$gamma_i$の選択の影響について検討する。ニューラルネットワークの出力とテスト精度のばらつきの観点からは、$gamma_i$sを1にすることを選択すべきである。
論文参考訳（メタデータ） (2022-09-02T17:05:55Z)
Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文参考訳（メタデータ） (2022-06-30T09:24:02Z)
Sample Complexity and Overparameterization Bounds for Projection-Free Neural TD Learning [38.730333068555275]
神経td学習の既存の解析は、無限幅解析または(ランダム)コンパクト集合内のネットワークパラメータの制約に依存している。 poly(overlinenu,1/epsilon)$以上の幅の2層reluネットワークを備えたプロジェクションフリーtd学習は、$poly(overlinenu,1/epsilon)$イテレーションまたはサンプルを与えられたエラー$epsilon$で真の値関数に収束する。
論文参考訳（メタデータ） (2021-03-02T01:05:19Z)
Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文参考訳（メタデータ） (2020-07-09T07:09:28Z)
Towards Understanding Hierarchical Learning: Benefits of Neural Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文参考訳（メタデータ） (2020-06-24T02:44:54Z)
A Corrective View of Neural Networks: Representation, Memorization and Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文参考訳（メタデータ） (2020-02-01T20:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。