論文の概要: Revisiting ResNets: Improved Training and Scaling Strategies
- arxiv url: http://arxiv.org/abs/2103.07579v1
- Date: Sat, 13 Mar 2021 00:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:12:25.418548
- Title: Revisiting ResNets: Improved Training and Scaling Strategies
- Title(参考訳): ResNetを再訪:トレーニングとスケーリング戦略の改善
- Authors: Irwan Bello, William Fedus, Xianzhi Du, Ekin D. Cubuk, Aravind
Srinivas, Tsung-Yi Lin, Jonathon Shlens, Barret Zoph
- Abstract要約: トレーニングとスケーリングの戦略は、アーキテクチャの変更よりも重要であり、その結果、ResNetは最新のモデルと一致します。
ベストパフォーマンスなスケーリング戦略は、トレーニング体制に依存することを示します。
私たちは、ResNetアーキテクチャのファミリー、ResNet-RSを設計します。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍 - 2.7倍高速です。
- 参考スコア(独自算出の注目度): 54.0162571976267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel computer vision architectures monopolize the spotlight, but the impact
of the model architecture is often conflated with simultaneous changes to
training methodology and scaling strategies. Our work revisits the canonical
ResNet (He et al., 2015) and studies these three aspects in an effort to
disentangle them. Perhaps surprisingly, we find that training and scaling
strategies may matter more than architectural changes, and further, that the
resulting ResNets match recent state-of-the-art models. We show that the best
performing scaling strategy depends on the training regime and offer two new
scaling strategies: (1) scale model depth in regimes where overfitting can
occur (width scaling is preferable otherwise); (2) increase image resolution
more slowly than previously recommended (Tan & Le, 2019). Using improved
training and scaling strategies, we design a family of ResNet architectures,
ResNet-RS, which are 1.7x - 2.7x faster than EfficientNets on TPUs, while
achieving similar accuracies on ImageNet. In a large-scale semi-supervised
learning setup, ResNet-RS achieves 86.2% top-1 ImageNet accuracy, while being
4.7x faster than EfficientNet NoisyStudent. The training techniques improve
transfer performance on a suite of downstream tasks (rivaling state-of-the-art
self-supervised algorithms) and extend to video classification on Kinetics-400.
We recommend practitioners use these simple revised ResNets as baselines for
future research.
- Abstract(参考訳): 新しいコンピュータビジョンアーキテクチャはスポットライトを独占するが、モデルアーキテクチャの影響は、しばしばトレーニング方法論とスケーリング戦略の同時変化と混同される。
私たちの仕事は正規の ResNet (He et al., 2015) を再考し、それらを解くためにこれらの3つの側面を研究します。
おそらく驚くべきことに、トレーニングとスケーリングの戦略はアーキテクチャの変更よりも重要であり、その結果、ResNetsは最新のモデルと一致します。
1)過剰フィッティングが発生しうるシステムにおけるスケールモデル深さ(width scalingが好ましい場合)、(2)これまで推奨されていたよりも画像解像度を遅くする(tan & le, 2019)、という2つの新しいスケーリング戦略が提供されている。
改善されたトレーニングとスケーリング戦略を使用して、ResNetアーキテクチャのファミリーを設計する。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍から2.7倍速く、ImageNetでも同様の精度を達成している。
大規模な半教師付き学習セットアップでは、ResNet-RSは86.2%の画像ネット精度を達成し、EfficientNet NoisyStudentよりも4.7倍高速である。
トレーニング手法は,一連の下流タスク(最先端の自己教師型アルゴリズム)の転送性能を改善し,Kinetics-400の動画分類に拡張する。
このシンプルなResNetを今後の研究のベースラインとして使うことをおすすめします。
関連論文リスト
- DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs [30.412909498409192]
この論文はDensely Connected Convolutional Networks (DenseNets)を復活させる。
DenseNetsのポテンシャルは、未修正のトレーニングメソッドと従来のデザイン要素が機能を完全に明らかにしていないために見過ごされてしまったと信じています。
我々は,DenseNetスタイルの設計に対して新たな好みを定めながら,付加的なショートカットに対する結合のメリットを明らかにする経験的分析を行う。
論文 参考訳(メタデータ) (2024-03-28T17:12:39Z) - ScaleNet: An Unsupervised Representation Learning Method for Limited
Information [0.0]
ScaleNet という,シンプルで効率的な非教師なし表現学習手法を提案する。
ハリスコーナー情報のような特定の画像特徴は、回転予測タスクの効率において重要な役割を果たす。
限られたデータを持つScaleNetモデルから転送されたパラメータは、RotNetモデルと比較して、ImageNet分類タスクを約6%改善する。
論文 参考訳(メタデータ) (2023-10-03T19:13:43Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Pushing the limits of self-supervised ResNets: Can we outperform
supervised learning without labels on ImageNet? [35.98841834512082]
Relicv2は、教師付きベースラインを類似した比較で一貫して上回る最初の表現学習法である。
ResNetエンコーダを使用しているにもかかわらず、Relicv2は最先端の自己教師型視覚変換器と同等であることを示す。
論文 参考訳(メタデータ) (2022-01-13T18:23:30Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z) - Revisiting 3D ResNets for Video Recognition [18.91688307058961]
本稿では,ビデオ認識モデルの効果的なトレーニングとスケーリング戦略について述べる。
本稿では,3次元ResNetの簡単なスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2021-09-03T18:27:52Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Learning to Resize Images for Computer Vision Tasks [15.381549764216134]
そこで本研究では,リニアリシライザを学習リシライザに置き換えることで,性能を大幅に向上できることを示す。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
論文 参考訳(メタデータ) (2021-03-17T23:43:44Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。