論文の概要: TResNet: High Performance GPU-Dedicated Architecture
- arxiv url: http://arxiv.org/abs/2003.13630v3
- Date: Thu, 27 Aug 2020 05:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 07:28:01.459563
- Title: TResNet: High Performance GPU-Dedicated Architecture
- Title(参考訳): TResNet: 高性能GPU専用アーキテクチャ
- Authors: Tal Ridnik, Hussam Lawen, Asaf Noy, Emanuel Ben Baruch, Gilad Sharir,
Itamar Friedman
- Abstract要約: 近年開発された多くのディープラーニングモデルは、FLOPS数が少なく、ResNet50よりもImageNetの精度が高い。
本稿では、GPUトレーニングと推論効率を維持しながら、ニューラルネットワークの精度を高めることを目的としたアーキテクチャ修正のシリーズを紹介する。
我々は、従来のConvNetよりも精度と効率を向上する、TResNetと呼ばれるGPU専用モデルの新しいファミリーを紹介する。
- 参考スコア(独自算出の注目度): 6.654949459658242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many deep learning models, developed in recent years, reach higher ImageNet
accuracy than ResNet50, with fewer or comparable FLOPS count. While FLOPs are
often seen as a proxy for network efficiency, when measuring actual GPU
training and inference throughput, vanilla ResNet50 is usually significantly
faster than its recent competitors, offering better throughput-accuracy
trade-off.
In this work, we introduce a series of architecture modifications that aim to
boost neural networks' accuracy, while retaining their GPU training and
inference efficiency. We first demonstrate and discuss the bottlenecks induced
by FLOPs-optimizations. We then suggest alternative designs that better utilize
GPU structure and assets. Finally, we introduce a new family of GPU-dedicated
models, called TResNet, which achieve better accuracy and efficiency than
previous ConvNets.
Using a TResNet model, with similar GPU throughput to ResNet50, we reach 80.8
top-1 accuracy on ImageNet. Our TResNet models also transfer well and achieve
state-of-the-art accuracy on competitive single-label classification datasets
such as Stanford cars (96.0%), CIFAR-10 (99.0%), CIFAR-100 (91.5%) and
Oxford-Flowers (99.1%). They also perform well on multi-label classification
and object detection tasks. Implementation is available at:
https://github.com/mrT23/TResNet.
- Abstract(参考訳): 近年開発された多くのディープラーニングモデルは、FLOPS数が少なく、ResNet50よりもImageNetの精度が高い。
FLOPはネットワーク効率のプロキシと見なされることが多いが、実際のGPUトレーニングと推論スループットを測定する場合、バニラResNet50は最近の競合他社よりもはるかに高速で、スループットと精度のトレードオフが向上する。
本稿では,gpuのトレーニングと推論効率を維持しつつ,ニューラルネットワークの精度を高めることを目的とした,一連のアーキテクチャ修正を提案する。
まず、FLOPs最適化によって引き起こされるボトルネックを実証し、議論する。
次に、GPUの構造とアセットをよりよく活用する代替設計を提案する。
最後に、TResNetと呼ばれる新しいGPU専用モデルを紹介し、従来のConvNetよりも精度と効率を向上させる。
TResNetモデルを用いて、ResNet50と同様のGPUスループットで、ImageNet上で80.8トップ-1精度に達する。
我々のTResNetモデルは、スタンフォード・カー(96.0%)、CIFAR-10(99.0%)、CIFAR-100(91.5%)、オックスフォード・フラワーズ(99.1%)といった競合するシングルラベル分類データセットの最先端の精度も達成している。
また、マルチラベル分類やオブジェクト検出タスクでもうまく機能する。
実装は、https://github.com/mrT23/TResNet.comで公開されている。
関連論文リスト
- DSNet: A Novel Way to Use Atrous Convolutions in Semantic Segmentation [8.240211805240023]
我々は、現代の畳み込みニューラルネットワーク(CNN)におけるアトラス畳み込みの設計を再考する。
本稿では,モデルアーキテクチャの浅い層にアトラス畳み込みを組み込んだDual-Branch CNNアーキテクチャDSNetを提案する。
私たちのモデルは、ADE20K、Cityscapes、BDDデータセットの正確性とスピードの新たな最先端のトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-06-06T02:51:57Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - Post-training deep neural network pruning via layer-wise calibration [70.65691136625514]
本論文では,自動合成フラクタル画像に基づくコンピュータビジョンモデルに対するデータフリーな拡張を提案する。
実データを使用する場合は、トレーニング後の設定で65%の間隔で8ビットの精度でImageNet上のResNet50モデルを取得できます。
論文 参考訳(メタデータ) (2021-04-30T14:20:51Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - High-Performance Large-Scale Image Recognition Without Normalization [34.58818094675353]
バッチ正規化は、ほとんどの画像分類モデルのキーコンポーネントであるが、多くの望ましくない性質を持っている。
我々は,これらの不安定性を克服する適応的勾配クリッピング手法を開発し,より優れた正規化自由レスネットのクラスを設計する。
大規模事前トレーニング後のImageNetの微調整では,バッチ正規化よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-02-11T18:23:20Z) - RepVGG: Making VGG-style ConvNets Great Again [116.0327370719692]
本稿では,3x3畳み込みとReLUのスタックのみからなるVGGのような推論時間体を持つ,畳み込みニューラルネットワークの単純かつ強力なアーキテクチャを提案する。
RepVGGは、私たちの知識を最大限に活用するために、プレーンモデルにとって初めてである80%以上のトップ-1の精度に達します。
論文 参考訳(メタデータ) (2021-01-11T04:46:11Z) - Neural Architecture Design for GPU-Efficient Networks [27.07089149328155]
本稿では,GPU効率のよいネットワークを設計するための一般的な原理を提案する。
提案するフレームワークをベースとして,GPU効率の良いネットワーク群(genets)を簡潔に設計する。
ImageNetで$geq 81.3%の精度を達成する一方で、genetはGPUでEfficienNetより6.4ドル速い。
論文 参考訳(メタデータ) (2020-06-24T22:42:18Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。