論文の概要: Rapid training of deep neural networks without skip connections or
normalization layers using Deep Kernel Shaping
- arxiv url: http://arxiv.org/abs/2110.01765v1
- Date: Tue, 5 Oct 2021 00:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:19:34.769295
- Title: Rapid training of deep neural networks without skip connections or
normalization layers using Deep Kernel Shaping
- Title(参考訳): Deep Kernel Shapingを用いたスキップ接続や正規化レイヤのないディープニューラルネットワークの高速トレーニング
- Authors: James Martens, Andy Ballard, Guillaume Desjardins, Grzegorz Swirszcz,
Valentin Dalibard, Jascha Sohl-Dickstein, Samuel S. Schoenholz
- Abstract要約: 我々は、深層ネットワークに存在する主な病理組織を特定し、それらが高速にトレーニングされ、目に見えないデータに一般化されるのを防ぐ。
本稿では,ネットワークのカーネル関数の「形状」を慎重に制御することで,これらを回避する方法を示す。
- 参考スコア(独自算出の注目度): 46.083745557823164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using an extended and formalized version of the Q/C map analysis of Poole et
al. (2016), along with Neural Tangent Kernel theory, we identify the main
pathologies present in deep networks that prevent them from training fast and
generalizing to unseen data, and show how these can be avoided by carefully
controlling the "shape" of the network's initialization-time kernel function.
We then develop a method called Deep Kernel Shaping (DKS), which accomplishes
this using a combination of precise parameter initialization, activation
function transformations, and small architectural tweaks, all of which preserve
the model class. In our experiments we show that DKS enables SGD training of
residual networks without normalization layers on Imagenet and CIFAR-10
classification tasks at speeds comparable to standard ResNetV2 and Wide-ResNet
models, with only a small decrease in generalization performance. And when
using K-FAC as the optimizer, we achieve similar results for networks without
skip connections. Our results apply for a large variety of activation
functions, including those which traditionally perform very badly, such as the
logistic sigmoid. In addition to DKS, we contribute a detailed analysis of skip
connections, normalization layers, special activation functions like RELU and
SELU, and various initialization schemes, explaining their effectiveness as
alternative (and ultimately incomplete) ways of "shaping" the network's
initialization-time kernel.
- Abstract(参考訳): poole et al.(2016)のq/cマップ解析の拡張版とニューラルネットワークの接点カーネル理論を用いて、深層ネットワークに存在する主要な病理を同定し、それらを高速に訓練し、未発見のデータに一般化することを防ぎ、ネットワークの初期化時間カーネル関数の「形」を慎重に制御することにより、これらを回避する方法を示す。
次に,Deep Kernel Shaping (DKS) と呼ばれる手法を開発し,パラメータの初期化,アクティベーション関数変換,およびモデルクラスを保存した小さなアーキテクチャ変更を組み合わせた手法を提案する。
実験の結果,DKSは標準ResNetV2およびワイドResNetモデルに匹敵する速度で,ImagenetおよびCIFAR-10分類タスク上で正規化レイヤを使わずに,残余ネットワークのSGDトレーニングを可能にした。
また、K-FACをオプティマイザとして使用すると、接続をスキップせずに同様の結果が得られる。
本研究は,ロジスティックシグモイドなど,伝統的に非常に悪い機能を示す機能を含む,多種多様なアクティベーション関数に適用した。
DKSに加えて、スキップ接続、正規化層、RELUやSELUのような特別なアクティベーション関数、および様々な初期化スキームの詳細な解析に寄与し、ネットワークの初期化時間カーネルを「形作る」代替(そして最終的に不完全な)方法としての有効性を説明する。
関連論文リスト
- Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Local Kernel Renormalization as a mechanism for feature learning in
overparametrized Convolutional Neural Networks [0.0]
実験的な証拠は、無限幅限界における完全連結ニューラルネットワークが最終的に有限幅限界よりも優れていることを示している。
畳み込み層を持つ最先端アーキテクチャは、有限幅構造において最適な性能を達成する。
有限幅FCネットワークの一般化性能は,ガウス事前選択に適した無限幅ネットワークで得られることを示す。
論文 参考訳(メタデータ) (2023-07-21T17:22:04Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。