論文の概要: One-Step Early Stopping Strategy using Neural Tangent Kernel Theory and Rademacher Complexity
- arxiv url: http://arxiv.org/abs/2411.18806v1
- Date: Wed, 27 Nov 2024 23:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:18:26.783412
- Title: One-Step Early Stopping Strategy using Neural Tangent Kernel Theory and Rademacher Complexity
- Title(参考訳): ニューラルタンジェントカーネル理論とラデマッハ複雑度を用いたワンステップ早期停止戦略
- Authors: Daniel Martin Xavier, Ludovic Chamoin, Jawher Jerray, Laurent Fribourg,
- Abstract要約: 早期停止戦略は、トレーニングエラーが最小限になる前に、入力データのセット$S$でニューラルネットワーク(NN)のトレーニングプロセスを止めることである。
ここでは、初期訓練誤差ベクトルとニューラル・タンジェント・カーネルの固有値を含む最適停止時間を解析的に推定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The early stopping strategy consists in stopping the training process of a neural network (NN) on a set $S$ of input data before training error is minimal. The advantage is that the NN then retains good generalization properties, i.e. it gives good predictions on data outside $S$, and a good estimate of the statistical error (``population loss'') is obtained. We give here an analytical estimation of the optimal stopping time involving basically the initial training error vector and the eigenvalues of the ``neural tangent kernel''. This yields an upper bound on the population loss which is well-suited to the underparameterized context (where the number of parameters is moderate compared with the number of data). Our method is illustrated on the example of an NN simulating the MPC control of a Van der Pol oscillator.
- Abstract(参考訳): 早期停止戦略は、トレーニングエラーが最小限になる前に、入力データのセット$S$でニューラルネットワーク(NN)のトレーニングプロセスを止めることである。
利点は、NNが良質な一般化特性を保ち、すなわち、$S$以外のデータに対して良い予測を行い、統計誤差(`population loss'')が得られたことである。
ここでは、初期訓練誤差ベクトルと `‘neural tangent kernel'' の固有値を含む最適停止時間を解析的に推定する。
これは、パラメータの数がデータ数に比べて中程度である)パラメータ化コンテキストに適した人口損失の上限となる。
本稿では,Van der Pol発振器のMPC制御をシミュレーションしたNNの例を示す。
関連論文リスト
- Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクの急激なレートを示す。
$cO(eps_n2)$は、GDが早期停止でトレーニングした古典的なカーネルレグレッションと同じレートである。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning [14.792099973449794]
本稿では,スパースネットワークのトレーニングダイナミクスと高密度ネットワークのトレーニングダイナミクスを一致させるアルゴリズムを提案する。
NTKスペクトルにおける通常無視されるデータ依存成分がどのように考慮されるかを示す。
パスeXclusion(PX)は、高頻度でも宝くじを見つけることができる。
論文 参考訳(メタデータ) (2024-06-03T22:19:42Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - A Kernel-Expanded Stochastic Neural Network [10.837308632004644]
ディープニューラルネットワークは、トレーニングにおいて、しばしばローカルな最小限に閉じ込められる。
新しいカーネル拡張ニューラルネットワーク(K-StoNet)モデルは、潜在変数モデルとしてネットワークを再構成する。
モデルは命令正規化最適化(IRO)アルゴリズムを用いて容易に訓練することができる。
論文 参考訳(メタデータ) (2022-01-14T06:42:42Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Rapid Risk Minimization with Bayesian Models Through Deep Learning
Approximation [9.93116974480156]
本稿では,ベイズモデル (BM) とニューラルネットワーク (NN) を組み合わせて,予測を最小限のリスクで行う手法を提案する。
私たちのアプローチは、BMのデータ効率と解釈可能性とNNの速度を組み合わせます。
テストデータセットに無視できる損失がある標準手法よりも、リスク最小限の予測をはるかに高速に達成する。
論文 参考訳(メタデータ) (2021-03-29T15:08:25Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。