論文の概要: Characterizing signal propagation to close the performance gap in
unnormalized ResNets
- arxiv url: http://arxiv.org/abs/2101.08692v2
- Date: Wed, 27 Jan 2021 11:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:07:20.915321
- Title: Characterizing signal propagation to close the performance gap in
unnormalized ResNets
- Title(参考訳): 非正規化再ネットの性能ギャップを閉じる信号伝搬特性
- Authors: Andrew Brock, Soham De, Samuel L. Smith
- Abstract要約: バッチ正規化は、バッチ内のトレーニング例間の独立性を破り、計算とメモリオーバーヘッドを発生させ、しばしば予期せぬバグを引き起こす。
我々は,フォワードパス上での信号伝搬を特徴付ける簡易な解析ツールセットを提案し,これらのツールを用いて活性化正規化層を必要とせず,高パフォーマンスのresnetを設計する。
私たちの成功に重大なのは、最近提案された重量標準化の適応版です。
解析ツールは、チャネルごとのアクティベーション手段が深さとともに成長しないようにすることで、ReLUやSwishのアクティベーション機能付きネットワークにおける信号の保存方法を示す。
- 参考スコア(独自算出の注目度): 22.638397557336663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch Normalization is a key component in almost all state-of-the-art image
classifiers, but it also introduces practical challenges: it breaks the
independence between training examples within a batch, can incur compute and
memory overhead, and often results in unexpected bugs. Building on recent
theoretical analyses of deep ResNets at initialization, we propose a simple set
of analysis tools to characterize signal propagation on the forward pass, and
leverage these tools to design highly performant ResNets without activation
normalization layers. Crucial to our success is an adapted version of the
recently proposed Weight Standardization. Our analysis tools show how this
technique preserves the signal in networks with ReLU or Swish activation
functions by ensuring that the per-channel activation means do not grow with
depth. Across a range of FLOP budgets, our networks attain performance
competitive with the state-of-the-art EfficientNets on ImageNet.
- Abstract(参考訳): バッチ正規化(Batch Normalization)は、ほぼすべての最先端のイメージ分類器において重要なコンポーネントであるが、バッチ内のトレーニング例間の独立性を破り、計算とメモリのオーバーヘッドを発生させ、しばしば予期せぬバグを引き起こすという、実践的な課題も導入している。
初期化時の深い再ネットの最近の理論的解析に基づいて,フォワードパス上での信号伝搬を特徴付ける簡易な解析ツールセットを提案し,これらのツールを用いて活性化正規化層を必要とせず,高性能な再ネットを設計する。
私たちの成功には、最近提案された重みの標準化の適応バージョンが不可欠です。
解析ツールは、チャネルごとのアクティベーション手段が深さとともに成長しないようにすることで、ReLUやSwishのアクティベーション機能付きネットワークにおける信号の保存方法を示す。
FLOP予算の範囲で、私たちのネットワークはImageNet上の最先端のEfficientNetsと競合するパフォーマンスを実現しています。
関連論文リスト
- Singular Value Perturbation and Deep Network Optimization [29.204852309828006]
我々は,行列摂動に関する新たな理論的結果を開発し,アーキテクチャが深層ネットワークの性能に与える影響について光を当てる。
特に,ディープラーニング実践者が長年経験してきたことを説明する。深層アーキテクチャのパラメータは,他よりも容易に最適化できる。
摂動結果の直接的な応用は、ResNetがConvNetよりも簡単に最適化できる理由を解析的に説明します。
論文 参考訳(メタデータ) (2022-03-07T02:09:39Z) - A Lightweight, Efficient and Explainable-by-Design Convolutional Neural
Network for Internet Traffic Classification [66.58073672357064]
本稿では、インターネットトラフィック分類のための軽量で効率的なeXplainable-by-design畳み込みニューラルネットワーク(LEXNet)を提案する。
LEXNetは(軽量で効率の良い目的のために)新しい残留ブロックと(説明可能性のために)プロトタイプ層に依存している。
商用グレードのデータセットに基づいて、LEXNetは最先端のニューラルネットワークと同じ精度を維持することに成功した。
論文 参考訳(メタデータ) (2022-02-11T10:21:34Z) - Sharpness-aware Quantization for Deep Neural Networks [71.74282247931554]
ネットワーク量子化は、モデルのサイズと計算コストを削減する効果的な圧縮手法である。
近年,モデルの一般化性能を向上させるため,SAM(Sharpness-Aware Minimization)が提案されている。
本稿では,シャープネス・アウェア量子化法(SAQ)を考案し,量子化モデルのトレーニングを行い,より優れた一般化性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Rapid training of deep neural networks without skip connections or
normalization layers using Deep Kernel Shaping [46.083745557823164]
我々は、深層ネットワークに存在する主な病理組織を特定し、それらが高速にトレーニングされ、目に見えないデータに一般化されるのを防ぐ。
本稿では,ネットワークのカーネル関数の「形状」を慎重に制御することで,これらを回避する方法を示す。
論文 参考訳(メタデータ) (2021-10-05T00:49:36Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - CondenseNet V2: Sparse Feature Reactivation for Deep Networks [87.38447745642479]
高密度接続によるディープネットワークの機能再利用は、高い計算効率を達成する効果的な方法である。
スパース機能再活性化(SFR)と呼ばれる代替アプローチを提案し、再利用機能の有用性を積極的に高めることを目指しています。
提案手法は画像分類(ImageNet, CIFAR)とオブジェクト検出(MSCOCO)において,理論的効率と実用的速度の両面で有望な性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-04-09T14:12:43Z) - Robustness to Pruning Predicts Generalization in Deep Neural Networks [29.660568281957072]
トレーニングの損失に悪影響を与えることなく、pruning中に維持できるネットワークのパラメータの最小の屈折であるprunabilityを紹介します。
この測定は、CIFAR-10で訓練された大規模な畳み込みネットワーク全体のモデル一般化性能を非常に予測できることを示した。
論文 参考訳(メタデータ) (2021-03-10T11:39:14Z) - Sparsity Aware Normalization for GANs [32.76828505875087]
GAN(Generative adversarial Network)は、トレーニング中の批判的(差別的)ネットワークの正規化または正規化の恩恵を受けることが知られている。
本稿では,一般のスペクトル正規化スキームを分析し,有意な欠点を見つけ,GANトレーニングの安定化のための新たなアプローチであるスパーシャリティ認識正規化(SAN)を導入する。
論文 参考訳(メタデータ) (2021-03-03T15:05:18Z) - Dense for the Price of Sparse: Improved Performance of Sparsely
Initialized Networks via a Subspace Offset [0.0]
我々は,0.01%のトレーニング可能なカーネルパラメータが残っている場合でも,情報伝達とトレーニング性を維持する新しいDCT+Sparse層アーキテクチャを導入する。
標準のスパース層からDCTとスパース層への切り替えは、ネットワークのストレージフットプリントを増大させず、小さな計算オーバーヘッドしか発生しません。
論文 参考訳(メタデータ) (2021-02-12T00:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。