論文の概要: Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks
for Lighter, Faster and Robust Models
- arxiv url: http://arxiv.org/abs/2205.12050v1
- Date: Mon, 23 May 2022 13:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:34:03.348042
- Title: Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks
for Lighter, Faster and Robust Models
- Title(参考訳): 学習効率の良いCNNS:より軽量で高速でロバストなモデルのためのニューラルネットワークのNutとBolt
- Authors: Sabeesh Ethiraj, Bharath Kumar Bolla
- Abstract要約: トレーニングパラメータ数を逐次減少させることで,効率的な深層畳み込みネットワークを段階的に構築する方法を実証する。
我々は、MNISTのデータに対して、わずか1500のパラメータで99.2%のSOTA精度と、CIFAR-10データセットで140K以上のパラメータで86.01%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Learning has revolutionized the fields of computer vision, natural
language understanding, speech recognition, information retrieval and more.
Many techniques have evolved over the past decade that made models lighter,
faster, and robust with better generalization. However, many deep learning
practitioners persist with pre-trained models and architectures trained mostly
on standard datasets such as Imagenet, MS-COCO, IMDB-Wiki Dataset, and
Kinetics-700 and are either hesitant or unaware of redesigning the architecture
from scratch that will lead to better performance. This scenario leads to
inefficient models that are not suitable on various devices such as mobile,
edge, and fog. In addition, these conventional training methods are of concern
as they consume a lot of computing power. In this paper, we revisit various
SOTA techniques that deal with architecture efficiency (Global Average Pooling,
depth-wise convolutions & squeeze and excitation, Blurpool), learning rate
(Cyclical Learning Rate), data augmentation (Mixup, Cutout), label manipulation
(label smoothing), weight space manipulation (stochastic weight averaging), and
optimizer (sharpness aware minimization). We demonstrate how an efficient deep
convolution network can be built in a phased manner by sequentially reducing
the number of training parameters and using the techniques mentioned above. We
achieved a SOTA accuracy of 99.2% on MNIST data with just 1500 parameters and
an accuracy of 86.01% with just over 140K parameters on the CIFAR-10 dataset.
- Abstract(参考訳): ディープラーニングは、コンピュータビジョン、自然言語理解、音声認識、情報検索などの分野に革命をもたらした。
過去10年間、モデルをより軽く、速く、より堅牢にし、より一般化した多くの技術が進化してきた。
しかし、多くのディープラーニング実践者は、Imagenet、MS-COCO、IMDB-Wiki Dataset、Kinetics-700といった標準データセットに基づいてトレーニングされた事前トレーニング済みのモデルやアーキテクチャを継続し、パフォーマンス向上につながるアーキテクチャをゼロから再設計することをためらうか知らない。
このシナリオは、モバイル、エッジ、フォグといったさまざまなデバイスで不適切な非効率なモデルにつながる。
さらに、これらの従来のトレーニング手法は、多くのコンピューティングパワーを消費するので懸念される。
本稿では,アーキテクチャの効率性(グローバル平均プーリング,奥行き方向の畳み込みとスクイーズと興奮,ぼやけプール),学習率(循環学習率),データ拡張(混合,カットアウト),ラベル操作(ラベル平滑化),重み空間操作(確率的重み平均化),オプティマイザ(シャープネス認識最小化)など)を扱う様々なsoma手法について検討する。
学習パラメータの数を順次削減し,上で述べた手法を用いて,効率的な深層畳み込みネットワークを段階的に構築できることを実証する。
cifar-10データセット上では,約1500パラメータのmnistデータに対してsoma精度99.2%,約140kパラメータの86.01%のsoma精度を達成した。
関連論文リスト
- Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。
提案手法では,パラメータ数を70%以上圧縮できる。
また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文 参考訳(メタデータ) (2023-12-16T23:23:16Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Learning Rate Curriculum [75.98230528486401]
ラーニングレートカリキュラム(LeRaC)と呼ばれる新しいカリキュラム学習手法を提案する。
LeRaCは、ニューラルネットワークの各レイヤ毎に異なる学習率を使用して、最初のトレーニングエポックの間、データに依存しないカリキュラムを作成する。
Smoothing(CBS)によるCurriculum(Curriculum)との比較を行った。
論文 参考訳(メタデータ) (2022-05-18T18:57:36Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Improving the Accuracy of Early Exits in Multi-Exit Architectures via
Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。
本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2021-04-21T11:12:35Z) - Dataset Condensation with Differentiable Siamese Augmentation [30.571335208276246]
大規模トレーニングセットを,ディープニューラルネットワークのトレーニングに使用可能な,はるかに小さな合成セットに集約することに注力する。
より有益な合成画像の合成にデータ拡張を有効活用できる微分可能なSiamese Augmentationを提案する。
本手法がMNIST, FashionMNIST, SVHN, CIFAR10に対して99.6%, 94.9%, 88.5%, 71.5%の相対的性能をそれぞれ達成していることを1%未満のデータで示した。
論文 参考訳(メタデータ) (2021-02-16T16:32:21Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。