論文の概要: Sample Complexity and Overparameterization Bounds for Projection-Free
Neural TD Learning
- arxiv url: http://arxiv.org/abs/2103.01391v1
- Date: Tue, 2 Mar 2021 01:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:33:18.331855
- Title: Sample Complexity and Overparameterization Bounds for Projection-Free
Neural TD Learning
- Title(参考訳): プロジェクションフリーニューラルtd学習におけるサンプル複雑性と過パラメータ境界
- Authors: Semih Cayci, Siddhartha Satpathi, Niao He, R. Srikant
- Abstract要約: 神経td学習の既存の解析は、無限幅解析または(ランダム)コンパクト集合内のネットワークパラメータの制約に依存している。
poly(overlinenu,1/epsilon)$以上の幅の2層reluネットワークを備えたプロジェクションフリーtd学習は、$poly(overlinenu,1/epsilon)$イテレーションまたはサンプルを与えられたエラー$epsilon$で真の値関数に収束する。
- 参考スコア(独自算出の注目度): 38.730333068555275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the dynamics of temporal-difference learning with neural
network-based value function approximation over a general state space, namely,
\emph{Neural TD learning}. Existing analysis of neural TD learning relies on
either infinite width-analysis or constraining the network parameters in a
(random) compact set; as a result, an extra projection step is required at each
iteration. This paper establishes a new convergence analysis of neural TD
learning \emph{without any projection}. We show that the projection-free TD
learning equipped with a two-layer ReLU network of any width exceeding
$poly(\overline{\nu},1/\epsilon)$ converges to the true value function with
error $\epsilon$ given $poly(\overline{\nu},1/\epsilon)$ iterations or samples,
where $\overline{\nu}$ is an upper bound on the RKHS norm of the value function
induced by the neural tangent kernel. Our sample complexity and
overparameterization bounds are based on a drift analysis of the network
parameters as a stopped random process in the lazy training regime.
- Abstract(参考訳): ニューラルネットワークに基づく値関数近似による時間差学習のダイナミクスを一般状態空間、すなわち \emph{Neural TD Learning} 上で研究する。
既存のニューラルネットワークによるTD学習の分析は、無限幅解析または(ランダム)コンパクト集合におけるネットワークパラメータの制約に依存しており、その結果、各イテレーションで追加のプロジェクションステップが必要になる。
本稿では,ニューラルTD学習における新たな収束解析手法であるemph{without any projection}を確立する。
我々は、$poly(\overline{\nu},1/\epsilon)$を超える任意の幅の2層ReLUネットワークを備えた投影のないTD学習が、$poly(\overline{\nu},1/\epsilon)$与えられた$poly(\overline{\nu},1/\epsilon)$反復またはサンプルで真の値関数に収束することを示した。
我々のサンプル複雑性と過パラメータ境界は、遅延トレーニング環境で停止されたランダムプロセスとしてネットワークパラメータのドリフト解析に基づいている。
関連論文リスト
- On the Performance of Temporal Difference Learning With Neural Networks [20.721853144434743]
TD Learningは、関数近似にニューラルネットワークを用いる政策評価のための近似時間差法である。
近似バウンダリが$O(epsilon) + tildeO(1/sqrtm)$であることを示す。
論文 参考訳(メタデータ) (2023-12-08T22:34:29Z) - Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of
Neural Networks with Polynomial Width, Samples, and Time [37.73689342377357]
不自然な変更を伴わないネットワーク上の勾配勾配勾配が、カーネル法よりも優れたサンプリング複雑性を達成できるかどうかは、まだ明らかな問題である。
正の学習数を持つ射影勾配降下は同じサンプルで低誤差に収束することを示す。
論文 参考訳(メタデータ) (2023-06-28T16:45:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。