論文の概要: IDInit: A Universal and Stable Initialization Method for Neural Network Training
- arxiv url: http://arxiv.org/abs/2503.04626v2
- Date: Sun, 09 Mar 2025 16:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 11:38:49.443656
- Title: IDInit: A Universal and Stable Initialization Method for Neural Network Training
- Title(参考訳): IDInit: ニューラルネットワークトレーニングのための普遍的で安定した初期化手法
- Authors: Yu Pan, Chaozheng Wang, Zekai Wu, Qifan Wang, Min Zhang, Zenglin Xu,
- Abstract要約: レイヤ内のアイデンティティ移行を維持する方法は、ネットワークトレーニングにおいて優れた効率性を示している。
IDInitは、残差ネットワークの主層とサブステム層の両方にアイデンティティを保持する新しい方法である。
- 参考スコア(独自算出の注目度): 44.542599968374205
- License:
- Abstract: Deep neural networks have achieved remarkable accomplishments in practice. The success of these networks hinges on effective initialization methods, which are vital for ensuring stable and rapid convergence during training. Recently, initialization methods that maintain identity transition within layers have shown good efficiency in network training. These techniques (e.g., Fixup) set specific weights to zero to achieve identity control. However, settings of remaining weight (e.g., Fixup uses random values to initialize non-zero weights) will affect the inductive bias that is achieved only by a zero weight, which may be harmful to training. Addressing this concern, we introduce fully identical initialization (IDInit), a novel method that preserves identity in both the main and sub-stem layers of residual networks. IDInit employs a padded identity-like matrix to overcome rank constraints in non-square weight matrices. Furthermore, we show the convergence problem of an identity matrix can be solved by stochastic gradient descent. Additionally, we enhance the universality of IDInit by processing higher-order weights and addressing dead neuron problems. IDInit is a straightforward yet effective initialization method, with improved convergence, stability, and performance across various settings, including large-scale datasets and deep models.
- Abstract(参考訳): ディープニューラルネットワークは、実際に顕著な成果を上げている。
これらのネットワークの成功は、トレーニング中に安定かつ迅速な収束を保証するのに不可欠である効果的な初期化手法に依存している。
近年,階層内のアイデンティティ遷移を維持する初期化手法は,ネットワークトレーニングにおいて高い効率性を示している。
これらのテクニック(例えば、Fixup)は、アイデンティティ制御を達成するために、特定の重みをゼロに設定する。
しかし、残りの重みの設定(例えば、Fixupは非ゼロ重みを初期化するためにランダム値を使用する)は、ゼロ重みだけで達成される誘導バイアスに影響し、訓練に有害である可能性がある。
この問題に対処するため、残余ネットワークの主層とサブステム層の両方にアイデンティティを保持する新しい方法として、完全同一初期化(IDInit)を導入する。
IDInitは、非二乗重み行列の階数制約を克服するために、パッド付きIDのような行列を用いる。
さらに,恒等行列の収束問題は確率勾配降下によって解けることを示す。
さらに、高次重みを処理し、致命的な神経細胞問題に対処することで、IDInitの普遍性を高める。
IDInitは、大規模なデータセットやディープモデルなど、さまざまな設定におけるコンバージェンス、安定性、パフォーマンスを改善した、単純だが効果的な初期化方法である。
関連論文リスト
- Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Using linear initialisation to improve speed of convergence and
fully-trained error in Autoencoders [0.0]
そこで我々はStraddled Matrix Initialiserと呼ばれる新しいウェイト初期化手法を導入する。
階層行列とReLU活性化関数の組み合わせは、ニューラルネットワークをデファクト線形モデルとして初期化する。
全ての実験において、Straddeled Matrix Initialiserは、他のすべての方法よりも明らかに優れています。
論文 参考訳(メタデータ) (2023-11-17T18:43:32Z) - From Pointwise to Powerhouse: Initialising Neural Networks with
Generative Models [1.1807848705528714]
本稿では,新しい初期化手法の2つのグループを紹介する。
まず,変分オートエンコーダを用いて重み群を局所的に初期化する。
第2に,グラフハイパーネットを用いた全重みセットをグローバルに初期化する。
論文 参考訳(メタデータ) (2023-10-25T15:06:32Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Data-driven Weight Initialization with Sylvester Solvers [72.11163104763071]
本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
論文 参考訳(メタデータ) (2021-05-02T07:33:16Z) - Beyond Signal Propagation: Is Feature Diversity Necessary in Deep Neural
Network Initialization? [31.122757815108884]
ほぼすべての重みを0ドルに初期化することにより、同一の特徴を持つ深層畳み込みネットワークを構築する。
このアーキテクチャは完全な信号伝搬と安定した勾配を可能にし、標準ベンチマークの精度も高い。
論文 参考訳(メタデータ) (2020-07-02T11:49:17Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。