論文の概要: Simpler Fast Vision Transformers with a Jumbo CLS Token
- arxiv url: http://arxiv.org/abs/2502.15021v2
- Date: Fri, 23 May 2025 14:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.832642
- Title: Simpler Fast Vision Transformers with a Jumbo CLS Token
- Title(参考訳): ジャンボCLSトークンを用いたより簡易な高速ビジョン変換器
- Authors: Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos, Evan Shelhamer, James R. Green,
- Abstract要約: スループットを維持しながら精度を向上させるために、視覚変換器(ViT)の簡易化を導入する。
我々のアプローチであるJumboは、注意前のパッチトークン幅にマッチするように分割され、自己注意で処理され、再組み立てされる、より広いCLSトークンを生成する。
Jumboトークンは1つしかないため、そのコストは最小であり、このFFNを層間で共有するため、パラメータ数は制御される。
- 参考スコア(独自算出の注目度): 8.611779759566563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a simple enhancement of vision transformers (ViTs) to improve accuracy while maintaining throughput. Our approach, Jumbo, creates a wider CLS token, which is split to match the patch token width before attention, processed with self-attention, and reassembled. After attention, Jumbo applies a dedicated, wider FFN to this token. Since there is only one Jumbo token, its cost is minimal, and because we share this FFN across layers, its parameter count is controlled. Jumbo significantly improves over ViT+Registers on ImageNet-1K and ImageNet-21K. These gains are largest at small sizes / high speeds, e.g., ViT-nano+Jumbo outperforms ViT-nano+Registers by 13%. In fact, our Jumbo models are so efficient that they outperform specialized compute-efficient models while preserving the architectural advantages of plain ViTs, such as support for token dropping and other modalities. Accordingly, we demonstrate that Jumbo excels in these two settings via masked autoencoding and on a suite of time series benchmarks. Code and weights available: https://github.com/antofuller/jumbo
- Abstract(参考訳): スループットを維持しながら精度を向上させるために、視覚変換器(ViT)の簡易化を導入する。
我々のアプローチであるJumboは、注意前のパッチトークン幅にマッチするように分割され、自己注意で処理され、再組み立てされる、より広いCLSトークンを生成する。
注目された後、ジャンボはこのトークンに専用のより広いFFNを適用した。
Jumboトークンは1つしかないため、そのコストは最小であり、このFFNを層間で共有するため、パラメータ数は制御される。
JumboはImageNet-1KとImageNet-21KのViT+Registerよりも大幅に改善されている。
これらのゲインは、小さなサイズ/高速で最大であり、例えば、ViT-nano+JumboはViT-nano+Registersを13%上回る。
実際、我々のJumboモデルは、トークンドロップやその他のモダリティのサポートなど、平易なViTのアーキテクチャ上の利点を保ちながら、特別な計算効率のモデルよりも優れている。
したがって、Jumboはマスク付きオートエンコーディングと一連の時系列ベンチマークにより、これらの2つの設定で優れていることを示す。
コードとウェイト:https://github.com/antofuller/jumbo
関連論文リスト
- TinyViT: Fast Pretraining Distillation for Small Vision Transformers [88.54212027516755]
大規模データセットで事前学習した小型かつ効率的な小型視覚変換器のファミリーであるTinyViTを提案する。
中心となる考え方は、大きな事前訓練されたモデルから小さなモデルに知識を伝達し、小さなモデルが大量の事前訓練されたデータの配当を得ることを可能にすることである。
論文 参考訳(メタデータ) (2022-07-21T17:59:56Z) - LightViT: Towards Light-Weight Convolution-Free Vision Transformers [43.48734363817069]
視覚変換器(ViT)は通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている
コンボリューションを伴わない純粋な変圧器ブロック上での精度・効率バランスを改善するために,LightViT を軽量 ViT の新たなファミリとして提案する。
実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2022-07-12T14:27:57Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。