論文の概要: Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear
Networks
- arxiv url: http://arxiv.org/abs/2001.05992v1
- Date: Thu, 16 Jan 2020 18:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 23:28:28.179970
- Title: Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear
Networks
- Title(参考訳): 線形ネットワーク最適化における直交初期化の確率的利点
- Authors: Wei Hu, Lechao Xiao, Jeffrey Pennington
- Abstract要約: グローバル最小値への効率的な収束に必要な幅は, 深さに依存しないことを示す。
この結果から, 非線形ネットワークの初期化による最近の経験的成功について, 動的アイソメトリの原理による説明が得られた。
- 参考スコア(独自算出の注目度): 39.856439772974454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The selection of initial parameter values for gradient-based optimization of
deep neural networks is one of the most impactful hyperparameter choices in
deep learning systems, affecting both convergence times and model performance.
Yet despite significant empirical and theoretical analysis, relatively little
has been proved about the concrete effects of different initialization schemes.
In this work, we analyze the effect of initialization in deep linear networks,
and provide for the first time a rigorous proof that drawing the initial
weights from the orthogonal group speeds up convergence relative to the
standard Gaussian initialization with iid weights. We show that for deep
networks, the width needed for efficient convergence to a global minimum with
orthogonal initializations is independent of the depth, whereas the width
needed for efficient convergence with Gaussian initializations scales linearly
in the depth. Our results demonstrate how the benefits of a good initialization
can persist throughout learning, suggesting an explanation for the recent
empirical successes found by initializing very deep non-linear networks
according to the principle of dynamical isometry.
- Abstract(参考訳): ディープニューラルネットワークの勾配に基づく最適化のための初期パラメータ値の選択は、深層学習システムにおいて最も影響の大きいハイパーパラメータ選択の1つであり、収束時間とモデル性能の両方に影響する。
しかし、有意な経験的および理論的分析にもかかわらず、異なる初期化スキームの具体的な効果については比較的少ない。
本研究では, 深い線形ネットワークにおける初期化の効果を解析し, 直交群から初期重みを引き出すと, 標準ガウス初期化とイド重みとの収束が加速するという厳密な証明を初めて提供する。
深層ネットワークの場合,直交初期化を伴う大域最小値への効率的な収束に必要な幅は深さに依存しないが,ガウス初期化による効率的な収束に必要な幅は深さに線形にスケールする。
この結果から, 非線形ネットワークの初期化による最近の経験的成功を, 動的アイソメトリの原理に則って説明し, 優れた初期化の利点が学習を通して持続することを示す。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。