論文の概要: ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2301.00808v1
- Date: Mon, 2 Jan 2023 18:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:18:49.633595
- Title: ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
- Title(参考訳): ConvNeXt V2: Masked AutoencodersによるConvNetの共同設計とスケーリング
- Authors: Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu,
In So Kweon and Saining Xie
- Abstract要約: 完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
- 参考スコア(独自算出の注目度): 104.05133094625137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Driven by improved architectures and better representation learning
frameworks, the field of visual recognition has enjoyed rapid modernization and
performance boost in the early 2020s. For example, modern ConvNets, represented
by ConvNeXt, have demonstrated strong performance in various scenarios. While
these models were originally designed for supervised learning with ImageNet
labels, they can also potentially benefit from self-supervised learning
techniques such as masked autoencoders (MAE). However, we found that simply
combining these two approaches leads to subpar performance. In this paper, we
propose a fully convolutional masked autoencoder framework and a new Global
Response Normalization (GRN) layer that can be added to the ConvNeXt
architecture to enhance inter-channel feature competition. This co-design of
self-supervised learning techniques and architectural improvement results in a
new model family called ConvNeXt V2, which significantly improves the
performance of pure ConvNets on various recognition benchmarks, including
ImageNet classification, COCO detection, and ADE20K segmentation. We also
provide pre-trained ConvNeXt V2 models of various sizes, ranging from an
efficient 3.7M-parameter Atto model with 76.7% top-1 accuracy on ImageNet, to a
650M Huge model that achieves a state-of-the-art 88.9% accuracy using only
public training data.
- Abstract(参考訳): アーキテクチャの改善と表現学習フレームワークの改善によって、視覚認識の分野は2020年代初めに急速に近代化され、パフォーマンスが向上した。
例えば、ConvNeXtで表現されたモダンなConvNetは、さまざまなシナリオで強力なパフォーマンスを示している。
これらのモデルは当初、imagenetラベルによる教師付き学習のために設計されたが、マスク付きオートエンコーダ(mae)のような自己教師付き学習技術の恩恵を受ける可能性がある。
しかし、これらの2つのアプローチを組み合わせるだけで性能が劣ることがわかった。
本稿では,完全な畳み込みマスク付きオートエンコーダフレームワークと,チャネル間機能競合を強化するためにConvNeXtアーキテクチャに追加可能な新たなグローバル応答正規化(GRN)層を提案する。
この自己教師あり学習技術とアーキテクチャ改善の共設計により、convnext v2と呼ばれる新しいモデルファミリが実現され、イメージネット分類、coco検出、ade20kセグメンテーションなど、さまざまな認識ベンチマークにおける純粋なconvnetのパフォーマンスが大幅に向上した。
また,イメージネット上で76.7%のtop-1精度を持つ効率的な3.7mパラメータattoモデルから,パブリックトレーニングデータのみを使用して88.9%の精度を達成する650mの巨大モデルまで,さまざまなサイズの事前学習されたconvnext v2モデルを提供する。
関連論文リスト
- EncodeNet: A Framework for Boosting DNN Accuracy with Entropy-driven Generalized Converting Autoencoder [3.2595221511180306]
我々は,画像からクラスを分類し易い画像に変換する新しい手法を開発した。
本稿では,Converting Autoencoderの一般化されたアルゴリズム設計とクラス内クラスタリングを用いて,代表画像の識別を行う。
実験により,EncodeNetはVGG16の精度を92.64%から94.05%に改善し,RestNet20は74.56%から76.04%に改善した。
論文 参考訳(メタデータ) (2024-04-21T20:45:18Z) - RevColV2: Exploring Disentangled Representations in Masked Image
Modeling [12.876864261893909]
Masked Image Modeling (MIM) は、視覚基礎モデルのトレーニング前セットアップとして広く使われており、有望なパフォーマンスを実現している。
既存のMIMメソッドは、ダウンストリームアプリケーション中にデコーダネットワークを破棄し、事前トレーニングと微調整の間に一貫性のない表現をもたらす。
本稿では,事前学習と微調整の両方において,オートエンコーダアーキテクチャ全体を維持することで,この問題に対処する新しいアーキテクチャRevColV2を提案する。
論文 参考訳(メタデータ) (2023-09-02T18:41:27Z) - Receptive Field Refinement for Convolutional Neural Networks Reliably
Improves Predictive Performance [1.52292571922932]
本稿では,このような理論的および経験的性能向上をもたらす受容場解析への新たなアプローチを提案する。
我々のアプローチは、広く知られたSOTA(State-of-the-art)モデルクラスにおいて、ImageNet1Kのパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-26T05:27:44Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Pushing the limits of self-supervised ResNets: Can we outperform
supervised learning without labels on ImageNet? [35.98841834512082]
Relicv2は、教師付きベースラインを類似した比較で一貫して上回る最初の表現学習法である。
ResNetエンコーダを使用しているにもかかわらず、Relicv2は最先端の自己教師型視覚変換器と同等であることを示す。
論文 参考訳(メタデータ) (2022-01-13T18:23:30Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Compounding the Performance Improvements of Assembled Techniques in a
Convolutional Neural Network [6.938261599173859]
基本CNNモデルの精度とロバスト性を改善する方法について述べる。
提案したResNet-50は、トップ1の精度を76.3%から82.78%、mCEを76.0%から48.9%、mFRを57.7%から32.3%に改善した。
CVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T12:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。