Fugu-MT 論文翻訳(概要): Simpler Fast Vision Transformers with a Jumbo CLS Token

論文の概要: Simpler Fast Vision Transformers with a Jumbo CLS Token

arxiv url: http://arxiv.org/abs/2502.15021v1
Date: Thu, 20 Feb 2025 20:16:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:38.978884
Title: Simpler Fast Vision Transformers with a Jumbo CLS Token
Title（参考訳）: ジャンボCLSトークンを用いたより簡易な高速ビジョン変換器
Authors: Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos, Evan Shelhamer, James R. Green,
Abstract要約: スループットを維持しながら精度を向上させるために,視覚変換器(ViT)のグローバル処理の簡易化を提案する。我々のアプローチであるJumboは、注意前のパッチトークン幅にマッチするように分割され、自己注意で処理され、再組み立てされる、より広いCLSトークンを生成する。
参考スコア（独自算出の注目度）: 8.611779759566563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a simple enhancement to the global processing of vision transformers (ViTs) to improve accuracy while maintaining throughput. Our approach, Jumbo, creates a wider CLS token, which is split to match the patch token width before attention, processed with self-attention, and reassembled. After attention, Jumbo applies a dedicated, wider FFN to this token. Jumbo significantly improves over ViT+Registers on ImageNet-1K at high speeds (by 3.2% for ViT-tiny and 13.5% for ViT-nano); these Jumbo models even outperform specialized compute-efficient models while preserving the architectural advantages of plain ViTs. Although Jumbo sees no gains for ViT-small on ImageNet-1K, it gains 3.4% on ImageNet-21K over ViT+Registers. Both findings indicate that Jumbo is most helpful when the ViT is otherwise too narrow for the task. Finally, we show that Jumbo can be easily adapted to excel on data beyond images, e.g., time series.
Abstract（参考訳）: スループットを維持しながら精度を向上させるために,視覚変換器(ViT)のグローバル処理の簡易化を提案する。我々のアプローチであるJumboは、注意前のパッチトークン幅にマッチするように分割され、自己注意で処理され、再組み立てされる、より広いCLSトークンを生成する。注目された後、ジャンボはこのトークンに専用でより広いFFNを適用した。ジャンボは、ImageNet-1K上のViT+レジストを高速(ViT-tinyが3.2%、ViT-nanoが13.5%)で大幅に改善し、これらのジャンボモデルは通常のViTのアーキテクチャ上の利点を保ちながら、特別な計算効率のモデルよりも優れていた。 Jumbo は ImageNet-1K では ViT-small のゲインはないが、ImageNet-21K では ViT+Registers よりも 3.4% アップしている。どちらの結果も、ViTがタスクに狭すぎる場合、Jumboが最も有用であることを示している。最後に、Jumboは画像以外のデータ、例えば時系列に簡単に適応できることを示す。

関連論文リスト

Powerful Design of Small Vision Transformer on CIFAR10 [0.0]
ViT(Vision Transformers)は大規模なデータセットで顕著な成功を収めているが、小さなデータセットのパフォーマンスはCNNに劣ることが多い。本稿では、CIFAR-10をベンチマークとして、小さなデータセットに対するTiny ViTの設計と最適化について検討する。
論文参考訳（メタデータ） (2025-01-07T00:41:34Z)
Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文参考訳（メタデータ） (2022-11-03T13:19:23Z)
TinyViT: Fast Pretraining Distillation for Small Vision Transformers [88.54212027516755]
大規模データセットで事前学習した小型かつ効率的な小型視覚変換器のファミリーであるTinyViTを提案する。中心となる考え方は、大きな事前訓練されたモデルから小さなモデルに知識を伝達し、小さなモデルが大量の事前訓練されたデータの配当を得ることを可能にすることである。
論文参考訳（メタデータ） (2022-07-21T17:59:56Z)
LightViT: Towards Light-Weight Convolution-Free Vision Transformers [43.48734363817069]
視覚変換器(ViT)は通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられているコンボリューションを伴わない純粋な変圧器ブロック上での精度・効率バランスを改善するために,LightViT を軽量 ViT の新たなファミリとして提案する。実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
論文参考訳（メタデータ） (2022-07-12T14:27:57Z)
Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文参考訳（メタデータ） (2022-05-23T15:42:12Z)
MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。 MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文参考訳（メタデータ） (2022-04-14T17:59:05Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文参考訳（メタデータ） (2021-07-25T14:44:24Z)
So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文参考訳（メタデータ） (2021-04-22T09:05:09Z)
DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文参考訳（メタデータ） (2021-03-22T14:32:07Z)
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。 T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文参考訳（メタデータ） (2021-01-28T13:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。