論文の概要: Revisiting Initialization of Neural Networks
- arxiv url: http://arxiv.org/abs/2004.09506v3
- Date: Thu, 4 Jun 2020 17:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:21:29.824228
- Title: Revisiting Initialization of Neural Networks
- Title(参考訳): ニューラルネットワークの初期化の再考
- Authors: Maciej Skorski, Alessandro Temperoni, Martin Theobald
- Abstract要約: ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
- 参考スコア(独自算出の注目度): 72.24615341588846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proper initialization of weights is crucial for the effective training
and fast convergence of deep neural networks (DNNs). Prior work in this area
has mostly focused on balancing the variance among weights per layer to
maintain stability of (i) the input data propagated forwards through the
network and (ii) the loss gradients propagated backwards, respectively. This
prevalent heuristic is however agnostic of dependencies among gradients across
the various layers and captures only firstorder effects. In this paper, we
propose and discuss an initialization principle that is based on a rigorous
estimation of the global curvature of weights across layers by approximating
and controlling the norm of their Hessian matrix. The proposed approach is more
systematic and recovers previous results for DNN activations such as smooth
functions, dropouts, and ReLU. Our experiments on Word2Vec and the MNIST/CIFAR
image classification tasks confirm that tracking the Hessian norm is a useful
diagnostic tool which helps to more rigorously initialize weights
- Abstract(参考訳): 重みの適切な初期化は、ディープニューラルネットワーク(DNN)の効果的なトレーニングと高速収束に不可欠である。
この領域での以前の仕事は、安定性を維持するために層毎の重みのばらつきのバランスをとることに集中してきた。
(i)ネットワークを介して転送された入力データ
(ii) 損失勾配はそれぞれ後方に伝播した。
しかし、この一般的なヒューリスティックは、様々な層にわたる勾配間の依存関係に依存しず、一階効果のみをキャプチャする。
本稿では,ヘッセン行列のノルムを近似し,制御することにより,層間の重みのグローバルな曲率の厳密な推定に基づく初期化原理を提案し,議論する。
提案手法はより体系的であり、スムーズ関数やドロップアウト、ReLUといったDNNアクティベーションの以前の結果を復元する。
word2vecおよびmnist/cifar画像分類タスクにおける実験により,ヘッセンノルムの追跡がより厳密なウェイト初期化に役立つ診断ツールであることを確認した。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - On the Initialization of Graph Neural Networks [10.153841274798829]
グラフニューラルネットワーク層間の前方・後方伝播のばらつきを解析する。
GNN最適化(Virgo)における可変不安定化のための新しい手法を提案する。
15のデータセットで包括的な実験を行い、Virgoが優れたモデルパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-05T09:55:49Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - On the Impact of Stable Ranks in Deep Nets [3.307203784120635]
安定なランクは、指数関数的に深度的に蓄積する線形因子として本質的に階層的に現れることを示す。
以上の結果から,安定度は指数関数的に深度的に蓄積する線形因子として本質的に階層的に現れることが示唆された。
論文 参考訳(メタデータ) (2021-10-05T20:04:41Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z) - Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear
Networks [39.856439772974454]
グローバル最小値への効率的な収束に必要な幅は, 深さに依存しないことを示す。
この結果から, 非線形ネットワークの初期化による最近の経験的成功について, 動的アイソメトリの原理による説明が得られた。
論文 参考訳(メタデータ) (2020-01-16T18:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。