論文の概要: Aggregating Nested Transformers
- arxiv url: http://arxiv.org/abs/2105.12723v1
- Date: Wed, 26 May 2021 17:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:25:01.993284
- Title: Aggregating Nested Transformers
- Title(参考訳): ネスト変換器の集約
- Authors: Zizhao Zhang, Han Zhang, Long Zhao, Ting Chen, Tomas Pfister
- Abstract要約: 重なり合わない画像ブロックに局所変換器をネストして階層的に集約するという考え方について検討する。
ブロック集約関数はブロック間非ローカル情報通信において重要な役割を果たす。
実験の結果,提案手法のNesTはより高速に収束し,優れた一般化を実現するためには,より少ないトレーニングデータを必要とすることがわかった。
- 参考スコア(独自算出の注目度): 42.96279765218623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although hierarchical structures are popular in recent vision transformers,
they require sophisticated designs and massive datasets to work well. In this
work, we explore the idea of nesting basic local transformers on
non-overlapping image blocks and aggregating them in a hierarchical manner. We
find that the block aggregation function plays a critical role in enabling
cross-block non-local information communication. This observation leads us to
design a simplified architecture with minor code changes upon the original
vision transformer and obtains improved performance compared to existing
methods. Our empirical results show that the proposed method NesT converges
faster and requires much less training data to achieve good generalization. For
example, a NesT with 68M parameters trained on ImageNet for 100/300 epochs
achieves $82.3\%/83.8\%$ accuracy evaluated on $224\times 224$ image size,
outperforming previous methods with up to $57\%$ parameter reduction. Training
a NesT with 6M parameters from scratch on CIFAR10 achieves $96\%$ accuracy
using a single GPU, setting a new state of the art for vision transformers.
Beyond image classification, we extend the key idea to image generation and
show NesT leads to a strong decoder that is 8$\times$ faster than previous
transformer based generators. Furthermore, we also propose a novel method for
visually interpreting the learned model.
- Abstract(参考訳): 階層構造は近年のビジョントランスフォーマーで人気があるが、機能するためには高度な設計と大規模なデータセットが必要である。
本研究では,重複しない画像ブロックに基本局所トランスフォーマーをネストし,それらを階層的に集約する手法を検討する。
ブロック集約関数は,クロスブロック非局所情報通信を実現する上で重要な役割を担っている。
この観察結果から,元のビジョン変換器に小さなコード変更を加えた簡易アーキテクチャを設計し,既存手法と比較して性能が向上した。
実験の結果,提案手法はより高速に収束し,優れた一般化を実現するためにトレーニングデータを必要とすることがわかった。
例えば、100/300エポックでImageNetでトレーニングされた68Mパラメータを持つNesTは、22.3\%/83.8\%の精度を224\times 224$の画像サイズで評価し、最大57%\%のパラメータ削減で以前の手法より優れている。
CIFAR10上で6MパラメータをスクラッチからトレーニングしたNesTは、単一のGPUを使用して9,6\%の精度を達成する。
画像分類以外にも、重要なアイデアを画像生成に拡張し、NesTが以前のトランスフォーマーベースのジェネレータよりも8$\times$高速な強力なデコーダに導くことを示す。
さらに,学習したモデルを視覚的に解釈する新しい手法を提案する。
関連論文リスト
- Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。