論文の概要: When do Convolutional Neural Networks Stop Learning?
- arxiv url: http://arxiv.org/abs/2403.02473v1
- Date: Mon, 4 Mar 2024 20:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:57:58.725031
- Title: When do Convolutional Neural Networks Stop Learning?
- Title(参考訳): 畳み込みニューラルネットワークはいつ学習を止めるのか?
- Authors: Sahan Ahmad, Gabriel Trahan, Aminul Islam
- Abstract要約: 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて優れた性能を示した。
現在の実践は、トレーニング損失が減少し、トレーニングと検証エラーの間のギャップが増加すると、トレーニングをやめることである。
この研究は、CNNの変種の全層にわたるデータ変動を分析し、その準最適学習能力を予測する仮説を導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional Neural Networks (CNNs) have demonstrated outstanding
performance in computer vision tasks such as image classification, detection,
segmentation, and medical image analysis. In general, an arbitrary number of
epochs is used to train such neural networks. In a single epoch, the entire
training data -- divided by batch size -- are fed to the network. In practice,
validation error with training loss is used to estimate the neural network's
generalization, which indicates the optimal learning capacity of the network.
Current practice is to stop training when the training loss decreases and the
gap between training and validation error increases (i.e., the generalization
gap) to avoid overfitting. However, this is a trial-and-error-based approach
which raises a critical question: Is it possible to estimate when neural
networks stop learning based on training data? This research work introduces a
hypothesis that analyzes the data variation across all the layers of a CNN
variant to anticipate its near-optimal learning capacity. In the training
phase, we use our hypothesis to anticipate the near-optimal learning capacity
of a CNN variant without using any validation data. Our hypothesis can be
deployed as a plug-and-play to any existing CNN variant without introducing
additional trainable parameters to the network. We test our hypothesis on six
different CNN variants and three different general image datasets (CIFAR10,
CIFAR100, and SVHN). The result based on these CNN variants and datasets shows
that our hypothesis saves 58.49\% of computational time (on average) in
training. We further conduct our hypothesis on ten medical image datasets and
compared with the MedMNIST-V2 benchmark. Based on our experimental result, we
save $\approx$ 44.1\% of computational time without losing accuracy against the
MedMNIST-V2 benchmark.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーション、医療画像解析などのコンピュータビジョンタスクにおいて優れた性能を示した。
一般に、任意の数のエポックを用いてそのようなニューラルネットワークを訓練する。
単一のエポックでは、トレーニングデータ — バッチサイズで分割された — 全体が、ネットワークに送信される。
実際、トレーニング損失を伴う検証誤差は、ニューラルネットワークの一般化を推定するために使用され、ネットワークの最適な学習能力を示す。
現在の実践は、トレーニングの損失が減少し、トレーニングと検証エラーのギャップ(つまり一般化ギャップ)が増加するとトレーニングを停止し、オーバーフィットを避けることである。
しかし、これは試行錯誤に基づくアプローチであり、重要な疑問を提起する: ニューラルネットワークがトレーニングデータに基づいて学習をやめたことを推定することは可能か?
本研究は,cnn変種の全層にわたるデータ変動を分析し,その最適に近い学習能力を予測する仮説を提案する。
トレーニングフェーズでは、検証データを用いることなく、我々の仮説を用いて、CNN変異体の準最適学習能力を予測する。
我々の仮説は、ネットワークにトレーニング可能なパラメータを追加することなく、既存のCNN亜種へのプラグアンドプレイとしてデプロイできる。
我々は6種類のCNN変種と3種類の一般画像データセット(CIFAR10, CIFAR100, SVHN)で仮説を検証した。
これらのcnnの変種とデータセットに基づく結果は、この仮説がトレーニングで計算時間の58.49\%を節約することを示している。
MedMNIST-V2ベンチマークと比較し,10の医用画像データセットについてさらに仮説を立てる。
実験結果から,MedMNIST-V2ベンチマークの精度を損なわずに,$\approx$44.1\%の計算時間を節約した。
関連論文リスト
- Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning [5.2319020651074215]
ニューラル予測器(DCLP)のためのカリキュラム誘導型コントラスト学習フレームワークを提案する。
本手法は,新たなカリキュラムを設計し,ラベルのないトレーニングデータ分布の安定性を高めることで,対照的なタスクを単純化する。
我々は既存の予測器と比較してDCLPの精度と効率が優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-25T08:16:21Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Reconstructing Training Data from Trained Neural Networks [42.60217236418818]
いくつかのケースでは、トレーニングデータのかなりの部分が、実際にトレーニングされたニューラルネットワーク分類器のパラメータから再構成可能であることを示す。
本稿では,勾配に基づくニューラルネットワークの学習における暗黙バイアスに関する最近の理論的結果から,新たな再構成手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:35:16Z) - Lost Vibration Test Data Recovery Using Convolutional Neural Network: A
Case Study [0.0]
本稿では,アラモサキャニオン橋のCNNアルゴリズムを実構造として提案する。
3つの異なるCNNモデルは、1つと2つの故障したセンサーを予測するものとされた。
畳み込み層を追加することによりモデルの精度が向上した。
論文 参考訳(メタデータ) (2022-04-11T23:24:03Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Neuron-Specific Dropout: A Deterministic Regularization Technique to
Prevent Neural Networks from Overfitting & Reduce Dependence on Large
Training Samples [0.0]
NSDropoutは、モデルのレイヤのトレーニングパスとバリデーションパスの両方を調べます。
データセット内の各クラスのニューロンが生成する平均値を比較することで、ネットワークはターゲットユニットをドロップすることができる。
レイヤは、バリデーションからサンプルを見る際に存在しない、テスト中にモデルが見ている機能やノイズを予測することができる。
論文 参考訳(メタデータ) (2022-01-13T13:10:30Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - Predicting Neural Network Accuracy from Weights [25.73213712719546]
トレーニングされたニューラルネットワークの精度は、その重みだけを見て驚くほど正確に予測できることを実験的に示す。
この分野のさらなる研究を促進するために、4つの異なるデータセットでトレーニングされた120kの畳み込みニューラルネットワークのコレクションをリリースする。
論文 参考訳(メタデータ) (2020-02-26T13:06:14Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。