論文の概要: A New Perspective for Understanding Generalization Gap of Deep Neural
Networks Trained with Large Batch Sizes
- arxiv url: http://arxiv.org/abs/2210.12184v1
- Date: Fri, 21 Oct 2022 18:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:48:40.375974
- Title: A New Perspective for Understanding Generalization Gap of Deep Neural
Networks Trained with Large Batch Sizes
- Title(参考訳): 大きなバッチサイズで学習したディープニューラルネットワークの一般化ギャップ理解のための新しい視点
- Authors: Oyebade K. Oyedotun and Konstantinos Papadopoulos and Djamila Aouada
- Abstract要約: ディープニューラルネットワーク(DNN)は通常、様々な種類のミニバッチ勾配勾配アルゴリズムを用いて最適化される。
多くの研究は、訓練バッチサイズが一定の限界を超えて増加すると、モデル一般化の進歩的な損失を報告している。
これは一般に一般化ギャップと呼ばれるシナリオである。
分析の結果,トレーニングバッチサイズが大きくなれば,ユニットのアクティベーションがほぼ失われることがわかった。
- 参考スコア(独自算出の注目度): 14.822603738271138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) are typically optimized using various forms of
mini-batch gradient descent algorithm. A major motivation for mini-batch
gradient descent is that with a suitably chosen batch size, available computing
resources can be optimally utilized (including parallelization) for fast model
training. However, many works report the progressive loss of model
generalization when the training batch size is increased beyond some limits.
This is a scenario commonly referred to as generalization gap. Although several
works have proposed different methods for alleviating the generalization gap
problem, a unanimous account for understanding generalization gap is still
lacking in the literature. This is especially important given that recent works
have observed that several proposed solutions for generalization gap problem
such learning rate scaling and increased training budget do not indeed resolve
it. As such, our main exposition in this paper is to investigate and provide
new perspectives for the source of generalization loss for DNNs trained with a
large batch size. Our analysis suggests that large training batch size results
in increased near-rank loss of units' activation (i.e. output) tensors, which
consequently impacts model optimization and generalization. Extensive
experiments are performed for validation on popular DNN models such as VGG-16,
residual network (ResNet-56) and LeNet-5 using CIFAR-10, CIFAR-100,
Fashion-MNIST and MNIST datasets.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は通常、様々な種類のミニバッチ勾配勾配アルゴリズムを用いて最適化される。
ミニバッチ勾配降下の主な動機は、適度に選択されたバッチサイズで、利用可能な計算リソースを(並列化を含む)高速モデルのトレーニングに最適に利用できることである。
しかし、訓練バッチサイズが一定の限界を超えると、モデル一般化の進行的な損失が報告される。
これは一般に一般化ギャップと呼ばれるシナリオである。
一般化ギャップ問題を緩和するための様々な方法が提案されているが、一般化ギャップを理解するための一意的な説明は文献にはまだ欠けている。
最近の研究で、学習率のスケーリングやトレーニング予算の増大といった一般化ギャップ問題に対するいくつかの解決策が実際に解決しないことが示されているため、これは特に重要である。
そこで本稿では,大規模なバッチサイズで訓練されたdnnの一般化損失の発生源について,新たな視点を考察し,提示する。
分析の結果,大規模な訓練バッチサイズは単位のアクティベーション(すなわち出力)テンソルの近距離損失を増大させ,結果としてモデルの最適化と一般化に影響を及ぼすことが示された。
CIFAR-10、CIFAR-100、Fashion-MNIST、MNISTデータセットを用いて、VGG-16、残留ネットワーク(ResNet-56)、LeNet-5などの一般的なDNNモデルの検証を行う。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Enhancing Size Generalization in Graph Neural Networks through Disentangled Representation Learning [7.448831299106425]
DISGENは、グラフ表現からサイズ因子をアンタングルするために設計された、モデルに依存しないフレームワークである。
実験の結果, DISGENは実世界のデータセットにおいて, 最先端のモデルよりも最大6%優れていた。
論文 参考訳(メタデータ) (2024-06-07T03:19:24Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Wide Network Learning with Differential Privacy [7.453881927237143]
現在のニューラルネットの世代は、最も実質的に関連するプライバシトレーニング体制下で大きな損失を被っている。
プライベートな経験最小化(ERM)の勾配を生かしたこれらのモデルを訓練するための一般的なアプローチを開発する。
同じパラメータの数に従って、ニューラルネットワークをプライベートにトレーニングするための新しいアルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-01T20:31:50Z) - A Biased Graph Neural Network Sampler with Near-Optimal Regret [57.70126763759996]
グラフニューラルネットワーク(GNN)は、グラフおよびリレーショナルデータにディープネットワークアーキテクチャを適用する手段として登場した。
本論文では,既存の作業に基づいて,GNN近傍サンプリングをマルチアームバンディット問題として扱う。
そこで本研究では,分散を低減し,不安定かつ非限定的な支払いを回避すべく設計されたバイアスをある程度導入した報酬関数を提案する。
論文 参考訳(メタデータ) (2021-03-01T15:55:58Z) - Holistic Filter Pruning for Efficient Deep Neural Networks [25.328005340524825]
HFP(Holistic Filter Pruning)は、実装が容易で正確なプルーニング率の特定が可能な、一般的なDNNトレーニングのための新しいアプローチである。
各種実験において,CIFAR-10 と ImageNet のトレーニングと最先端性能について考察した。
論文 参考訳(メタデータ) (2020-09-17T09:23:36Z) - Optimization and Generalization Analysis of Transduction through
Gradient Boosting and Application to Multi-scale Graph Neural Networks [60.22494363676747]
現在のグラフニューラルネットワーク(GNN)は、オーバースムーシング(over-smoothing)と呼ばれる問題のため、自分自身を深くするのは難しいことが知られている。
マルチスケールGNNは、オーバースムーシング問題を緩和するための有望なアプローチである。
マルチスケールGNNを含むトランスダクティブ学習アルゴリズムの最適化と一般化を保証する。
論文 参考訳(メタデータ) (2020-06-15T17:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。