論文の概要: SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection
- arxiv url: http://arxiv.org/abs/2401.15293v1
- Date: Sat, 27 Jan 2024 04:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:01:26.256136
- Title: SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection
- Title(参考訳): SkipViT:Token-Level Skip Connectionによる視覚変換器の高速化
- Authors: Foozhan Ataiefard, Walid Ahmed, Habib Hajimolahoseini, Saina Asani,
Farnoosh Javadi, Mohammad Hassanpour, Omar Mohamed Awad, Austin Wen, Kangling
Liu, Yang Liu
- Abstract要約: 本稿では、異なる低コストの計算経路を分離して送信することで、重要でないトークン間の不要な相互作用量を最適化する手法を提案する。
スクラッチからViT-smallをトレーニングする実験結果から,SkipViTはトークンの55%を効果的に削減でき,トレーニングスループットは13%以上向上した。
- 参考スコア(独自算出の注目度): 3.960622297616708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers are known to be more computationally and data-intensive
than CNN models. These transformer models such as ViT, require all the input
image tokens to learn the relationship among them. However, many of these
tokens are not informative and may contain irrelevant information such as
unrelated background or unimportant scenery. These tokens are overlooked by the
multi-head self-attention (MHSA), resulting in many redundant and unnecessary
computations in MHSA and the feed-forward network (FFN). In this work, we
propose a method to optimize the amount of unnecessary interactions between
unimportant tokens by separating and sending them through a different low-cost
computational path. Our method does not add any parameters to the ViT model and
aims to find the best trade-off between training throughput and achieving a 0%
loss in the Top-1 accuracy of the final model. Our experimental results on
training ViT-small from scratch show that SkipViT is capable of effectively
dropping 55% of the tokens while gaining more than 13% training throughput and
maintaining classification accuracy at the level of the baseline model on
Huawei Ascend910A.
- Abstract(参考訳): ビジョントランスフォーマーはcnnモデルよりも計算量とデータ集約性が高いことが知られている。
ViTのようなトランスモデルは、それらの間の関係を学習するために全ての入力画像トークンを必要とする。
しかし、これらのトークンの多くは情報に乏しく、無関係な背景や重要でない景色などの無関係な情報を含んでいる。
これらのトークンはMHSA(Multi-head self-attention)によって見落とされ、MHSAとFFN(Feed-forward Network)では冗長で不要な計算が数多く行われる。
本研究では,非重要トークン間の不要な相互作用量を,異なる低コスト計算経路で分離・送信することにより最適化する手法を提案する。
提案手法は,ViTモデルにパラメータを追加せず,トレーニングのスループットと最終モデルのTop-1精度の0%の損失との最良のトレードオフを見つけることを目的としている。
SkipViTは13%以上のトレーニングスループットを獲得し,Huawei Ascend910Aのベースラインモデルのレベルで分類精度を維持しながら,トークンの55%を効果的に削減できることを示す。
関連論文リスト
- Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers [16.576495786546612]
Vision Transformer (ViT) はコンピュータビジョンのバックボーンとして登場した。
近年の作業は、冗長なトークンをプルーニングまたはファンクションすることにより、自己保持層の二次コストを低減している。
ここでは,トークンの融合は情報損失を最小限に抑えるために,トークン間の多様な関係を考慮する必要があると論じる。
論文 参考訳(メタデータ) (2024-03-15T05:30:29Z) - Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers [34.19166698049552]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンス面での競争上の優位性を示している。
本稿では、軽量接続予測モジュールを考案し、インスタンス依存の注意パターンを学習するための新しいアプローチを提案する。
その結果,MHSAでは48%から69%のFLOPが減少し,精度は0.4%に低下した。
論文 参考訳(メタデータ) (2023-03-24T02:12:28Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Not All Patches are What You Need: Expediting Vision Transformers via
Token Reorganizations [37.11387992603467]
ViT(Vision Transformer)は、すべてのイメージパッチをトークンとして取り込んで、MHSA(Multi-head Self-attention)を構築する。
例えば、意味的に無意味な画像背景を含むトークンがある。
本稿では、トレーニング中にViTに統合されたVTモデルのフィードフォワードプロセス中に画像トークンを再編成することを提案する。
論文 参考訳(メタデータ) (2022-02-16T00:19:42Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。