論文の概要: MetaFormer Baselines for Vision
- arxiv url: http://arxiv.org/abs/2210.13452v1
- Date: Mon, 24 Oct 2022 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:10:02.932367
- Title: MetaFormer Baselines for Vision
- Title(参考訳): ビジョンのためのMetaFormerベースライン
- Authors: Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng,
Shuicheng Yan, Xinchao Wang
- Abstract要約: 私たちはMetaFormerのベースラインモデルをいくつか導入し、最も基本的なミキサーや一般的なミキサーを使用します。
MetaFormerはパフォーマンスのしっかりとした低いバウンダリを保証します。
また,新たなアクティベーションであるStarReLUは,GELUと比較してFLOPを減少させるが,性能は向上する。
- 参考スコア(独自算出の注目度): 191.07289439437986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MetaFormer, the abstracted architecture of Transformer, has been found to
play a significant role in achieving competitive performance. In this paper, we
further explore the capacity of MetaFormer, again, without focusing on token
mixer design: we introduce several baseline models under MetaFormer using the
most basic or common mixers, and summarize our observations as follows: (1)
MetaFormer ensures solid lower bound of performance. By merely adopting
identity mapping as the token mixer, the MetaFormer model, termed
IdentityFormer, achieves >80% accuracy on ImageNet-1K. (2) MetaFormer works
well with arbitrary token mixers. When specifying the token mixer as even a
random matrix to mix tokens, the resulting model RandFormer yields an accuracy
of >81%, outperforming IdentityFormer. Rest assured of MetaFormer's results
when new token mixers are adopted. (3) MetaFormer effortlessly offers
state-of-the-art results. With just conventional token mixers dated back five
years ago, the models instantiated from MetaFormer already beat state of the
art. (a) ConvFormer outperforms ConvNeXt. Taking the common depthwise separable
convolutions as the token mixer, the model termed ConvFormer, which can be
regarded as pure CNNs, outperforms the strong CNN model ConvNeXt. (b) CAFormer
sets new record on ImageNet-1K. By simply applying depthwise separable
convolutions as token mixer in the bottom stages and vanilla self-attention in
the top stages, the resulting model CAFormer sets a new record on ImageNet-1K:
it achieves an accuracy of 85.5% at 224x224 resolution, under normal supervised
training without external data or distillation. In our expedition to probe
MetaFormer, we also find that a new activation, StarReLU, reduces 71% FLOPs of
activation compared with GELU yet achieves better performance. We expect
StarReLU to find great potential in MetaFormer-like models alongside other
neural networks.
- Abstract(参考訳): トランスフォーマーの抽象化されたアーキテクチャであるmetaformerは、競争的パフォーマンスを達成する上で重要な役割を担っている。
本稿では,MetaFormerのトークンミキサー設計に焦点をあてることなく,MetaFormerのキャパシティをさらに検討する: 最も基本的なあるいは一般的なミキサーを用いて,MetaFormerの下でいくつかのベースラインモデルを導入し,その観測結果を次のように要約する。
トークンミキサーとしてIDマッピングを採用するだけで、MetaFormerモデルはIdentityFormerと呼ばれ、ImageNet-1K上で80%の精度を達成する。
2) MetaFormerは任意のトークンミキサーとうまく機能します。
トークンミキサーをランダムなマトリックスとして指定してトークンを混ぜる場合、結果のモデルであるRandFormerは81%の精度でIdentityFormerを上回ります。
新しいトークンミキサーを採用すると、MetaFormerの結果が保証される。
3) metaformerは最先端の成果を無償で提供する。
従来のトークンミキサーは5年前のもので、metaformerからインスタンス化されたモデルは、すでにstate of the artを上回っている。
(a)ConvFormerはConvNeXtより優れている。
トークンミキサーとして共通的に分離可能な畳み込みを取り入れたこのモデルは、純粋なCNNと見なすことができるConvFormerと呼ばれ、強力なCNNモデルであるConvNeXtよりも優れている。
(b)CAFormerはImageNet-1Kに新しいレコードを設定する。
下段のトークンミキサーや上段のバニラセルフアテンションとして奥行き分離可能な畳み込みを単純に適用することにより、得られたモデルカフォーマはimagenet-1kに新しい記録を設定し、外部データや蒸留なしで85.5%の精度を224x224解像度で達成する。
MetaFormer の探索では,新たな活性化である StarReLU が GELU と比較して 71% FLOP の活性化を減少させるが,性能は向上する。
StarReLUは他のニューラルネットワークと共にMetaFormerのようなモデルに大きな可能性を見出すだろう。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - TokenMix: Rethinking Image Mixing for Data Augmentation in Vision
Transformers [36.630476419392046]
CutMixは、現代の畳み込みとトランスフォーマービジョンネットワークのトレーニングによく使われる、一般的な拡張テクニックである。
本稿では,視覚変換器の性能向上のために,新しいデータ拡張手法であるTokenMixを提案する。
論文 参考訳(メタデータ) (2022-07-18T07:08:29Z) - MetaFormer: A Unified Meta Framework for Fine-Grained Recognition [16.058297377539418]
視覚的きめ細かい分類のための統一的で強力なメタフレームワークを提案する。
実際にMetaFormerは、視覚と様々なメタ情報の共同学習に対処するための、シンプルで効果的なアプローチを提供する。
実験では、MetaFormerは様々なメタ情報を利用して、きめ細かい認識の性能を向上させることができる。
論文 参考訳(メタデータ) (2022-03-05T14:12:25Z) - MetaFormer is Actually What You Need for Vision [175.86264904607785]
変換器のアテンションモジュールを、恥ずかしいほど単純な空間プーリング演算子に置き換える。
意外なことに、複数のコンピュータビジョンタスクにおいて、導出モデルが競合性能を達成することを観察する。
論文 参考訳(メタデータ) (2021-11-22T18:52:03Z) - MetaDelta: A Meta-Learning System for Few-shot Image Classification [71.06324527247423]
数ショット画像分類のための新しいメタ学習システムであるMetaDeltaを提案する。
MetaDeltaの各メタラーナーは、バッチトレーニングによって微調整された独自の事前訓練エンコーダと、予測に使用されるパラメータフリーデコーダで構成されている。
論文 参考訳(メタデータ) (2021-02-22T02:57:22Z) - MetaMix: Improved Meta-Learning with Interpolation-based Consistency
Regularization [14.531741503372764]
バックボーンモデルを正規化するためのMetaMixという手法を提案する。
各エピソード内で仮想フィーチャとターゲットのペアを生成し、バックボーンモデルを標準化する。
任意のMAMLベースのアルゴリズムと統合でき、新しいタスクをより一般化した決定境界を学ぶことができる。
論文 参考訳(メタデータ) (2020-09-29T02:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。