論文の概要: Simpler Fast Vision Transformers with a Jumbo CLS Token
- arxiv url: http://arxiv.org/abs/2502.15021v1
- Date: Thu, 20 Feb 2025 20:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:00.037292
- Title: Simpler Fast Vision Transformers with a Jumbo CLS Token
- Title(参考訳): ジャンボCLSトークンを用いたより簡易な高速ビジョン変換器
- Authors: Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos, Evan Shelhamer, James R. Green,
- Abstract要約: スループットを維持しながら精度を向上させるために,視覚変換器(ViT)のグローバル処理の簡易化を提案する。
我々のアプローチであるJumboは、注意前のパッチトークン幅にマッチするように分割され、自己注意で処理され、再組み立てされる、より広いCLSトークンを生成する。
- 参考スコア(独自算出の注目度): 8.611779759566563
- License:
- Abstract: We introduce a simple enhancement to the global processing of vision transformers (ViTs) to improve accuracy while maintaining throughput. Our approach, Jumbo, creates a wider CLS token, which is split to match the patch token width before attention, processed with self-attention, and reassembled. After attention, Jumbo applies a dedicated, wider FFN to this token. Jumbo significantly improves over ViT+Registers on ImageNet-1K at high speeds (by 3.2% for ViT-tiny and 13.5% for ViT-nano); these Jumbo models even outperform specialized compute-efficient models while preserving the architectural advantages of plain ViTs. Although Jumbo sees no gains for ViT-small on ImageNet-1K, it gains 3.4% on ImageNet-21K over ViT+Registers. Both findings indicate that Jumbo is most helpful when the ViT is otherwise too narrow for the task. Finally, we show that Jumbo can be easily adapted to excel on data beyond images, e.g., time series.
- Abstract(参考訳): スループットを維持しながら精度を向上させるために,視覚変換器(ViT)のグローバル処理の簡易化を提案する。
我々のアプローチであるJumboは、注意前のパッチトークン幅にマッチするように分割され、自己注意で処理され、再組み立てされる、より広いCLSトークンを生成する。
注目された後、ジャンボはこのトークンに専用でより広いFFNを適用した。
ジャンボは、ImageNet-1K上のViT+レジストを高速(ViT-tinyが3.2%、ViT-nanoが13.5%)で大幅に改善し、これらのジャンボモデルは通常のViTのアーキテクチャ上の利点を保ちながら、特別な計算効率のモデルよりも優れていた。
Jumbo は ImageNet-1K では ViT-small のゲインはないが、ImageNet-21K では ViT+Registers よりも 3.4% アップしている。
どちらの結果も、ViTがタスクに狭すぎる場合、Jumboが最も有用であることを示している。
最後に、Jumboは画像以外のデータ、例えば時系列に簡単に適応できることを示す。
関連論文リスト
- TinyViT: Fast Pretraining Distillation for Small Vision Transformers [88.54212027516755]
大規模データセットで事前学習した小型かつ効率的な小型視覚変換器のファミリーであるTinyViTを提案する。
中心となる考え方は、大きな事前訓練されたモデルから小さなモデルに知識を伝達し、小さなモデルが大量の事前訓練されたデータの配当を得ることを可能にすることである。
論文 参考訳(メタデータ) (2022-07-21T17:59:56Z) - LightViT: Towards Light-Weight Convolution-Free Vision Transformers [43.48734363817069]
視覚変換器(ViT)は通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている
コンボリューションを伴わない純粋な変圧器ブロック上での精度・効率バランスを改善するために,LightViT を軽量 ViT の新たなファミリとして提案する。
実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2022-07-12T14:27:57Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。