論文の概要: AutoFormer: Searching Transformers for Visual Recognition
- arxiv url: http://arxiv.org/abs/2107.00651v1
- Date: Thu, 1 Jul 2021 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:42:16.351584
- Title: AutoFormer: Searching Transformers for Visual Recognition
- Title(参考訳): AutoFormer: 視覚認識のためのトランスフォーマー検索
- Authors: Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling
- Abstract要約: 本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。
AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。
我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のトップ-1精度を達成したことを示す。
- 参考スコア(独自算出の注目度): 97.60915598958968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pure transformer-based models have shown great potentials for
vision tasks such as image classification and detection. However, the design of
transformer networks is challenging. It has been observed that the depth,
embedding dimension, and number of heads can largely affect the performance of
vision transformers. Previous models configure these dimensions based upon
manual crafting. In this work, we propose a new one-shot architecture search
framework, namely AutoFormer, dedicated to vision transformer search.
AutoFormer entangles the weights of different blocks in the same layers during
supernet training. Benefiting from the strategy, the trained supernet allows
thousands of subnets to be very well-trained. Specifically, the performance of
these subnets with weights inherited from the supernet is comparable to those
retrained from scratch. Besides, the searched models, which we refer to
AutoFormers, surpass the recent state-of-the-arts such as ViT and DeiT. In
particular, AutoFormer-tiny/small/base achieve 74.7%/81.7%/82.4% top-1 accuracy
on ImageNet with 5.7M/22.9M/53.7M parameters, respectively. Lastly, we verify
the transferability of AutoFormer by providing the performance on downstream
benchmarks and distillation experiments. Code and models are available at
https://github.com/microsoft/AutoML.
- Abstract(参考訳): 近年、純粋なトランスフォーマーモデルが画像分類や検出などの視覚タスクに大きな可能性を秘めている。
しかし,変圧器ネットワークの設計は困難である。
奥行き, 埋め込み寸法, 頭部数などが視覚変換器の性能に大きく影響することが観察されている。
以前のモデルは手作業に基づいてこれらの次元を構成する。
本稿では,視覚トランスフォーマー検索に特化した新しいワンショット・アーキテクチャ・検索フレームワーク,autoformerを提案する。
AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。
この戦略により、訓練されたスーパーネットは何千ものサブネットを非常によく訓練することができる。
具体的には、スーパーネットから受け継いだ重み付きサブネットの性能は、スクラッチから再トレーニングされたサブネットに匹敵する。
さらに、検索されたモデルはAutoFormersと呼ばれ、ViTやDeiTといった最近の最先端技術を上回る。
特に、AutoFormer-tiny/Small/baseは、それぞれ5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のトップ-1精度を達成した。
最後に, 下流ベンチマークおよび蒸留実験の結果から, オートフォーマタの移動性を検証する。
コードとモデルはhttps://github.com/microsoft/automlで入手できる。
関連論文リスト
- Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - A Study on Transformer Configuration and Training Objective [33.7272660870026]
マスク付きオートエンコーダトレーニングにおいて,より深く狭いトランスフォーマー構成を用いるBambooを提案する。
ImageNetでは、そのような単純な構成変更により、再設計されたモデルは87.1%のトップ-1精度を達成する。
言語タスクでは、再設計されたモデルがBERTより優れ、デフォルト設定は平均1.1ポイント向上する。
論文 参考訳(メタデータ) (2022-05-21T05:17:11Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。