論文の概要: On Optimal Early Stopping: Over-informative versus Under-informative
Parametrization
- arxiv url: http://arxiv.org/abs/2202.09885v2
- Date: Wed, 23 Feb 2022 22:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 12:34:55.376793
- Title: On Optimal Early Stopping: Over-informative versus Under-informative
Parametrization
- Title(参考訳): 最適早期停止について:オーバーインフォーマティブとアンダーインフォーマティブパラメトリゼーション
- Authors: Ruoqi Shen, Liyao Gao, Yi-An Ma
- Abstract要約: 我々は,最適早期停止時間とモデル次元の関係を明らかにするために理論的結果を開発する。
実験により、最適な早期停止時間に関する理論的結果は、ディープニューラルネットワークのトレーニングプロセスと一致することを示した。
- 参考スコア(独自算出の注目度): 13.159777131162961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early stopping is a simple and widely used method to prevent over-training
neural networks. We develop theoretical results to reveal the relationship
between the optimal early stopping time and model dimension as well as sample
size of the dataset for certain linear models. Our results demonstrate two very
different behaviors when the model dimension exceeds the number of features
versus the opposite scenario. While most previous works on linear models focus
on the latter setting, we observe that the dimension of the model often exceeds
the number of features arising from data in common deep learning tasks and
propose a model to study this setting. We demonstrate experimentally that our
theoretical results on optimal early stopping time corresponds to the training
process of deep neural networks.
- Abstract(参考訳): 早期停止は、オーバートレーニングニューラルネットワークを防ぐためのシンプルで広く使われている方法である。
我々は,最適早期停止時間とモデル次元の関係を明らかにするための理論的結果と,特定の線形モデルに対するデータセットのサンプルサイズを明らかにする。
この結果から,モデル次元が特徴数を超える場合と反対のシナリオで異なる2つの挙動を示す。
線形モデルに関するこれまでのほとんどの研究は後者の設定に焦点を当てているが、モデルの次元は一般的なディープラーニングタスクでデータから生じる特徴数を上回ることも多く、この設定を研究するモデルを提案する。
我々は, ニューラルネットワークの学習過程に最適な早期停止時間に関する理論的結果が対応することを実験的に示す。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Uncertainty-Aware Time-to-Event Prediction using Deep Kernel Accelerated
Failure Time Models [11.171712535005357]
本稿では,時間-時間予測タスクのためのDeep Kernel Accelerated Failure Timeモデルを提案する。
我々のモデルは、2つの実世界のデータセットの実験において、繰り返しニューラルネットワークに基づくベースラインよりも良い点推定性能を示す。
論文 参考訳(メタデータ) (2021-07-26T14:55:02Z) - Model-free prediction of emergence of extreme events in a parametrically
driven nonlinear dynamical system by Deep Learning [0.0]
パラメトリック駆動非線形力学系における極端な事象の発生を予測する。
我々は3つのディープラーニングモデル、すなわちMulti-Layer Perceptron、Convolutional Neural Network、Long Short-Term Memoryを使用する。
長短期記憶モデルがカオス時系列の予測に最適であることがわかった。
論文 参考訳(メタデータ) (2021-07-14T14:48:57Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - A Multi-Channel Neural Graphical Event Model with Negative Evidence [76.51278722190607]
イベントデータセットは、タイムライン上で不規則に発生するさまざまなタイプのイベントのシーケンスである。
基礎となる強度関数を推定するために,非パラメトリックディープニューラルネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T23:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。