論文の概要: A Weight Initialization Based on the Linear Product Structure for Neural
Networks
- arxiv url: http://arxiv.org/abs/2109.00125v1
- Date: Wed, 1 Sep 2021 00:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:07:08.649479
- Title: A Weight Initialization Based on the Linear Product Structure for Neural
Networks
- Title(参考訳): ニューラルネットワークの線形積構造に基づく重み初期化
- Authors: Qipin Chen, Wenrui Hao, Juncai He
- Abstract要約: 非線形的な観点からニューラルネットワークを研究し、ニューラルネットワークの線形積構造(LPS)に基づく新しいウェイト初期化戦略を提案する。
提案手法は, 数値代数学の理論を用いて, すべての局所最小値を求めることを保証することにより, 活性化関数の近似から導かれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight initialization plays an important role in training neural networks and
also affects tremendous deep learning applications. Various weight
initialization strategies have already been developed for different activation
functions with different neural networks. These initialization algorithms are
based on minimizing the variance of the parameters between layers and might
still fail when neural networks are deep, e.g., dying ReLU. To address this
challenge, we study neural networks from a nonlinear computation point of view
and propose a novel weight initialization strategy that is based on the linear
product structure (LPS) of neural networks. The proposed strategy is derived
from the polynomial approximation of activation functions by using theories of
numerical algebraic geometry to guarantee to find all the local minima. We also
provide a theoretical analysis that the LPS initialization has a lower
probability of dying ReLU comparing to other existing initialization
strategies. Finally, we test the LPS initialization algorithm on both fully
connected neural networks and convolutional neural networks to show its
feasibility, efficiency, and robustness on public datasets.
- Abstract(参考訳): 軽量初期化はニューラルネットワークのトレーニングにおいて重要な役割を担い、また膨大なディープラーニングアプリケーションに影響を与える。
ニューラルネットワークの異なるアクティベーション機能のために、さまざまな重み初期化戦略がすでに開発されている。
これらの初期化アルゴリズムは、層間のパラメータの分散を最小化することに基づいており、ニューラルネットワークが深い場合、例えば死のReLUのように失敗する可能性がある。
この課題に対処するために、非線形計算の観点からニューラルネットワークを研究し、ニューラルネットワークの線形積構造(LPS)に基づく新しい重み初期化戦略を提案する。
提案手法は、数値代数幾何学の理論を用いて活性化関数の多項式近似から導出され、すべての局所極小を見つけることが保証される。
また, LPSの初期化は, 他の初期化戦略と比較して, ReLUの死亡確率が低いという理論的解析を行った。
最後に、完全連結ニューラルネットワークと畳み込みニューラルネットワークの両方でlps初期化アルゴリズムをテストし、公開データセットにおけるその実現可能性、効率性、堅牢性を示す。
関連論文リスト
- Improved weight initialization for deep and narrow feedforward neural network [3.0784574277021397]
ReLUニューロンが不活性になり出力がゼロになる"Bluving Dieing ReLU"というテキスト引用の問題は、ReLUアクティベーション機能を備えたディープニューラルネットワークのトレーニングにおいて大きな課題となる。
本稿では,この問題に対処するための新しい重み初期化手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T05:28:12Z) - When Deep Learning Meets Polyhedral Theory: A Survey [6.899761345257773]
過去10年間で、ディープ・ニューラル・ラーニングの顕著な精度のおかげで、ディープは予測モデリングの一般的な方法論となった。
一方、ニューラルネットワークの構造はより単純で線形な関数に収束した。
論文 参考訳(メタデータ) (2023-04-29T11:46:53Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Imbedding Deep Neural Networks [0.0]
ニューラルODEのような連続深度ニューラルネットワークは、非線形ベクトル値の最適制御問題の観点から、残留ニューラルネットワークの理解を再燃させた。
本稿では,ネットワークの深さを基本変数とする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T22:00:41Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。