論文の概要: ZerO Initialization: Initializing Residual Networks with only Zeros and
Ones
- arxiv url: http://arxiv.org/abs/2110.12661v1
- Date: Mon, 25 Oct 2021 06:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:18:15.313635
- Title: ZerO Initialization: Initializing Residual Networks with only Zeros and
Ones
- Title(参考訳): ZerO初期化:ゼロと1しか持たない残留ネットワークの初期化
- Authors: Jiawei Zhao, Florian Sch\"afer, Anima Anandkumar
- Abstract要約: ディープニューラルネットワークは通常ランダムウェイトを持ち、トレーニング中に安定した信号伝達を保証するために適切に選択された初期分散を持つ。
ばらつきの選択方法にはコンセンサスがなく、レイヤーの数が増えるにつれて、これは難しくなります。
本研究では、広く使われているランダムウェイト初期化を、ゼロと1しか持たない残差ネットワークを初期化する完全決定論的初期化スキームZerOに置き換える。
驚くべきことに、ZerOはImageNetを含むさまざまな画像分類データセットに対して最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 44.66636787050788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are usually initialized with random weights, with
adequately selected initial variance to ensure stable signal propagation during
training. However, there is no consensus on how to select the variance, and
this becomes challenging especially as the number of layers grows. In this
work, we replace the widely used random weight initialization with a fully
deterministic initialization scheme ZerO, which initializes residual networks
with only zeros and ones. By augmenting the standard ResNet architectures with
a few extra skip connections and Hadamard transforms, ZerO allows us to start
the training from zeros and ones entirely. This has many benefits such as
improving reproducibility (by reducing the variance over different experimental
runs) and allowing network training without batch normalization. Surprisingly,
we find that ZerO achieves state-of-the-art performance over various image
classification datasets, including ImageNet, which suggests random weights may
be unnecessary for modern network initialization.
- Abstract(参考訳): ディープニューラルネットワークは通常ランダムウェイトで初期化され、トレーニング中に安定した信号伝搬を保証するために適切に選択された初期分散を持つ。
しかし、ばらつきの選択方法にはコンセンサスがなく、特にレイヤーの数が増えるにつれて、これは難しくなります。
本研究では,0と1のみの残差ネットワークを初期化する完全決定論的初期化スキーム 0 で,広く用いられているランダム重み初期化を置き換えた。
数回のスキップ接続とHadamard変換で標準のResNetアーキテクチャを拡張することで、ZerOはゼロから完全にトレーニングを開始することができます。
これには、再現性の改善(異なる実験実行に対するばらつきを減らすことで)や、バッチの正規化なしにネットワークトレーニングを可能にするなど、多くのメリットがある。
驚くべきことに、zeroはimagenetを含む様々な画像分類データセットに対して最先端のパフォーマンスを達成している。
関連論文リスト
- Random Weights Networks Work as Loss Prior Constraint for Image
Restoration [50.80507007507757]
「画像復元の優先制約としてランダムウェイトネットワークを機能させることができる」という信念を提示する。」
我々の信念は、計算コストのトレーニングやテストなしに、既存のネットワークに直接挿入することができる。
強調しておきたいのは、損失関数の領域を刺激し、現在無視されている状態を保存することです。
論文 参考訳(メタデータ) (2023-03-29T03:43:51Z) - Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文 参考訳(メタデータ) (2022-10-05T17:33:23Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Variance-Aware Weight Initialization for Point Convolutional Neural
Networks [23.46612653627991]
連続的畳み込みの多さを統一する枠組みを提案する。
このフレームワークは、類似性があり、場合によってはパフォーマンスが向上しながら、バッチの正規化を回避できることを示す。
論文 参考訳(メタデータ) (2021-12-07T15:47:14Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Beyond Signal Propagation: Is Feature Diversity Necessary in Deep Neural
Network Initialization? [31.122757815108884]
ほぼすべての重みを0ドルに初期化することにより、同一の特徴を持つ深層畳み込みネットワークを構築する。
このアーキテクチャは完全な信号伝搬と安定した勾配を可能にし、標準ベンチマークの精度も高い。
論文 参考訳(メタデータ) (2020-07-02T11:49:17Z) - Fractional moment-preserving initialization schemes for training deep
neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。
本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。
数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-05-25T01:10:01Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。