論文の概要: SaiT: Sparse Vision Transformers through Adaptive Token Pruning
- arxiv url: http://arxiv.org/abs/2210.05832v1
- Date: Tue, 11 Oct 2022 23:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:28:20.704296
- Title: SaiT: Sparse Vision Transformers through Adaptive Token Pruning
- Title(参考訳): sait:adaptive token pruningによるスパースビジョントランスフォーマー
- Authors: Ling Li, David Thorsley, Joseph Hassoun
- Abstract要約: スパース適応画像変換器(SaiT)は、ハエのトークン間隔を単に変更するだけで、モデルアクセラレーションの様々なレベルを提供する。
SaiTは複雑性(FLOP)を39%から43%削減し、スループットを67%から91%向上させる。
- 参考スコア(独自算出の注目度): 5.1477382898520485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision transformers have achieved impressive results, effectively and
efficiently accelerating these models can further boost performances. In this
work, we propose a dense/sparse training framework to obtain a unified model,
enabling weight sharing across various token densities. Thus one model offers a
range of accuracy and throughput tradeoffs for different applications. Besides,
we introduce adaptive token pruning to optimize the patch token sparsity based
on the input image. In addition, we investigate knowledge distillation to
enhance token selection capability in early transformer modules. Sparse
adaptive image Transformer (SaiT) offers varying levels of model acceleration
by merely changing the token sparsity on the fly. Specifically, SaiT reduces
the computation complexity (FLOPs) by 39% - 43% and increases the throughput by
67% - 91% with less than 0.5% accuracy loss for various vision transformer
models. Meanwhile, the same model also provides the zero accuracy drop option
by skipping the sparsification step. SaiT achieves better accuracy and
computation tradeoffs than state-of-the-art transformer and convolutional
models.
- Abstract(参考訳): 視覚トランスフォーマーは印象的な結果を得たが、これらのモデルを効果的かつ効率的に加速することで、さらなる性能向上が期待できる。
本研究では,様々なトークン密度の重み付けを可能にする統一モデルを得るための,密集/疎結合なトレーニングフレームワークを提案する。
したがって、1つのモデルは異なるアプリケーションに対して様々な精度とスループットのトレードオフを提供する。
さらに、入力画像に基づいてパッチトークンの間隔を最適化するために適応トークンプルーニングを導入する。
また,初期変圧器モジュールのトークン選択能力を高めるため,知識蒸留についても検討した。
スパース適応画像変換器(SaiT)は、ハエのトークン間隔を変更するだけで、モデルアクセラレーションの様々なレベルを提供する。
具体的には、saitは計算複雑性(flops)を39%から43%削減し、スループットを67%から91%向上させ、様々な視覚トランスフォーマーモデルの精度を0.5%未満に抑えている。
一方、同じモデルはスパーシフィケーションステップをスキップすることで、ゼロ精度のドロップオプションも提供する。
SaiTは最先端のトランスフォーマーや畳み込みモデルよりも精度と計算のトレードオフを達成している。
関連論文リスト
- Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - ATS: Adaptive Token Sampling For Efficient Vision Transformers [33.297806854292155]
本稿では,パラメータフリーな適応トークンサンプリング(ATS)モジュールを導入し,既存の視覚トランスフォーマアーキテクチャにプラグインすることができる。
ATSは、重要なトークンをスコアリングし、適応的にサンプリングすることで、視覚変換器の強化を行う。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOPs)を37%削減し,最先端技術の向上を図っている。
論文 参考訳(メタデータ) (2021-11-30T18:56:57Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。