論文の概要: Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs
- arxiv url: http://arxiv.org/abs/2002.10801v3
- Date: Wed, 29 Jul 2020 13:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:01:38.325671
- Title: Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs
- Title(参考訳): DNNの学習ダイナミクス探索におけるレイヤワイドコンディショニング解析
- Authors: Lei Huang, Jie Qin, Li Liu, Fan Zhu, Ling Shao
- Abstract要約: 条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
- 参考スコア(独自算出の注目度): 115.35745188028169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditioning analysis uncovers the landscape of an optimization objective by
exploring the spectrum of its curvature matrix. This has been well explored
theoretically for linear models. We extend this analysis to deep neural
networks (DNNs) in order to investigate their learning dynamics. To this end,
we propose layer-wise conditioning analysis, which explores the optimization
landscape with respect to each layer independently. Such an analysis is
theoretically supported under mild assumptions that approximately hold in
practice. Based on our analysis, we show that batch normalization (BN) can
stabilize the training, but sometimes result in the false impression of a local
minimum, which has detrimental effects on the learning. Besides, we
experimentally observe that BN can improve the layer-wise conditioning of the
optimization problem. Finally, we find that the last linear layer of a very
deep residual network displays ill-conditioned behavior. We solve this problem
by only adding one BN layer before the last linear layer, which achieves
improved performance over the original and pre-activation residual networks.
- Abstract(参考訳): 条件付け解析は、その曲率行列のスペクトルを探索することで最適化対象の景観を明らかにする。
これは線形モデルの理論上よく研究されている。
この分析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
そこで本研究では,各層に対する最適化の展望を独立して検討する,層別コンディショニング解析を提案する。
このような分析は、ほぼ実際に成り立つ穏やかな仮定の下で理論的に支持される。
分析の結果,バッチ正規化(BN)はトレーニングを安定させるが,学習に有害な影響を与える局所的最小値の誤った印象を与える場合があることがわかった。
さらに, BN が最適化問題の階層的条件付けを改善することを実験的に検討した。
最後に、非常に深い残差ネットワークの最後の線形層は、不条件な振る舞いを示す。
この問題を解決するために、最後の線形層の前にBN層を1つだけ追加し、元の残差ネットワークと事前活性化残差ネットワークの性能を改善する。
関連論文リスト
- Taming Gradient Oversmoothing and Expansion in Graph Neural Networks [3.0764244780817283]
オーバースムーシングはグラフニューラルネットワーク(GNN)の主要なボトルネックとして主張されている。
トレーニング中に最適化を防ぐための$textitgradient oversmoothingの存在を示します。
勾配拡大を防止するため, 単純かつ効果的な正規化法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:22:20Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-20T22:10:40Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - What can linear interpolation of neural network loss landscapes tell us? [11.753360538833139]
ロスランドスケープは、人間が理解しやすい方法で可視化することが非常に難しいことで知られています。
この問題に対処する一般的な方法は、ランドスケープの線形スライスをプロットすることである。
論文 参考訳(メタデータ) (2021-06-30T11:54:04Z) - Kernel-Based Smoothness Analysis of Residual Networks [85.20737467304994]
ResNets(Residual Networks)は、これらの強力なモダンアーキテクチャの中でも際立っている。
本稿では,2つのモデル,すなわちResNetsが勾配よりもスムーズな傾向を示す。
論文 参考訳(メタデータ) (2020-09-21T16:32:04Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。