論文の概要: Deep Learning without Shortcuts: Shaping the Kernel with Tailored
Rectifiers
- arxiv url: http://arxiv.org/abs/2203.08120v1
- Date: Tue, 15 Mar 2022 17:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:11:50.511570
- Title: Deep Learning without Shortcuts: Shaping the Kernel with Tailored
Rectifiers
- Title(参考訳): ショートカットのないディープラーニング:テーラー整流器によるカーネル形成
- Authors: Guodong Zhang, Aleksandar Botev, James Martens
- Abstract要約: 我々は、ReLUの変種であるLeaky ReLUsと完全に互換性のある新しいタイプの変換を開発する。
実験では,ResNetsと競合する深層バニラネットワークによる検証精度を考慮し,計算コストを考慮しない手法を提案する。
- 参考スコア(独自算出の注目度): 83.74380713308605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training very deep neural networks is still an extremely challenging task.
The common solution is to use shortcut connections and normalization layers,
which are both crucial ingredients in the popular ResNet architecture. However,
there is strong evidence to suggest that ResNets behave more like ensembles of
shallower networks than truly deep ones. Recently, it was shown that deep
vanilla networks (i.e. networks without normalization layers or shortcut
connections) can be trained as fast as ResNets by applying certain
transformations to their activation functions. However, this method (called
Deep Kernel Shaping) isn't fully compatible with ReLUs, and produces networks
that overfit significantly more than ResNets on ImageNet. In this work, we
rectify this situation by developing a new type of transformation that is fully
compatible with a variant of ReLUs -- Leaky ReLUs. We show in experiments that
our method, which introduces negligible extra computational cost, achieves
validation accuracies with deep vanilla networks that are competitive with
ResNets (of the same width/depth), and significantly higher than those obtained
with the Edge of Chaos (EOC) method. And unlike with EOC, the validation
accuracies we obtain do not get worse with depth.
- Abstract(参考訳): 非常に深いニューラルネットワークのトレーニングは、依然として非常に難しい課題です。
一般的な解決策はショートカット接続と正規化レイヤを使用することであり、どちらも人気のあるresnetアーキテクチャの重要な要素である。
しかし、ResNetsが真に深いネットワークよりも浅いネットワークのアンサンブルのように振る舞うことを示す強い証拠がある。
近年、深いバニラネットワーク(すなわち、正規化層やショートカット接続のないネットワーク)は、特定の変換をアクティベーション関数に適用することでResNetsと同じくらい高速にトレーニングできることが示されている。
しかし、この手法(Deep Kernel Shapingと呼ばれる)はReLUと完全には互換性がなく、ImageNet上のResNetよりもはるかに過適合なネットワークを生成する。
本稿では、ReLUの亜種であるLeaky ReLUと完全に互換性のある新しいタイプの変換を開発することで、この状況を是正する。
本稿では,本手法が計算コストを不要に削減し,(同じ幅/深さの)resnetと競合し,カオスのエッジ(eoc)法で得られたものよりもはるかに高い深層バニラネットワークによる検証精度を実現することを示す。
EOCとは異なり、私たちが取得した検証精度は、深さによって悪化することはない。
関連論文リスト
- Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - RDRN: Recursively Defined Residual Network for Image Super-Resolution [58.64907136562178]
深部畳み込みニューラルネットワーク(CNN)は、単一画像超解像において顕著な性能を得た。
本稿では,注目ブロックを効率的に活用する新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:06:29Z) - Rapid training of deep neural networks without skip connections or
normalization layers using Deep Kernel Shaping [46.083745557823164]
我々は、深層ネットワークに存在する主な病理組織を特定し、それらが高速にトレーニングされ、目に見えないデータに一般化されるのを防ぐ。
本稿では,ネットワークのカーネル関数の「形状」を慎重に制御することで,これらを回避する方法を示す。
論文 参考訳(メタデータ) (2021-10-05T00:49:36Z) - Layer Folding: Neural Network Depth Reduction using Activation
Linearization [0.0]
現代のデバイスは高いレベルの並列性を示すが、リアルタイムレイテンシはネットワークの深さに大きく依存している。
線形でない活性化を除去できるかどうかを学習し、連続的な線形層を1つに折り畳む方法を提案する。
我々は, CIFAR-10 と CIFAR-100 で事前訓練されたネットワークに適用し, それら全てを同様の深さの浅い形に変換できることを示す。
論文 参考訳(メタデータ) (2021-06-17T08:22:46Z) - ResNet or DenseNet? Introducing Dense Shortcuts to ResNet [80.35001540483789]
本稿では、それらを解析するために高密度和の統一的な視点を示す。
本稿では,ResNetとDenseNetのジレンマに対する解法として,重み付き正規化ショートカットを提案する。
提案したDSNetはResNetよりもはるかに優れた結果を得ることができ、DenseNetと同等の性能を得るが、リソースは少ない。
論文 参考訳(メタデータ) (2020-10-23T16:00:15Z) - OverNet: Lightweight Multi-Scale Super-Resolution with Overscaling
Network [3.6683231417848283]
SISRを任意のスケールで1つのモデルで解くための,深層でも軽量な畳み込みネットワークであるOverNetを紹介した。
我々のネットワークは、従来の手法よりも少ないパラメータを使用しながら、標準ベンチマークにおいて、過去の最先端結果よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-05T22:10:29Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - Good Subnetworks Provably Exist: Pruning via Greedy Forward Selection [35.121856435677564]
本稿では,ディープニューラルネットワークにおけるグッドワークを見つけるための,単純な欲求選択手法を提案する。
十分に大きな事前訓練ネットワークに欲求選択戦略を適用することで、勾配降下で直接訓練されたネットワークよりも損失の少ないスモールワークを見つけることが保証される。
論文 参考訳(メタデータ) (2020-03-03T21:03:11Z) - Knapsack Pruning with Inner Distillation [11.04321604965426]
そこで本研究では,プルーンドネットワークの最終精度を最適化する新しいプルーニング手法を提案する。
ネットワークの高レベル構造を維持しながら、ネットワークチャネルを熟考する。
提案手法は,ResNetバックボーンを用いたImageNet,CIFAR-10,CIFAR-100における最先端のプルーニング結果をもたらす。
論文 参考訳(メタデータ) (2020-02-19T16:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。