Fugu-MT 論文翻訳(概要): SPViT: Enabling Faster Vision Transformers via Soft Token Pruning

論文の概要: SPViT: Enabling Faster Vision Transformers via Soft Token Pruning

arxiv url: http://arxiv.org/abs/2112.13890v1
Date: Mon, 27 Dec 2021 20:15:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-31 08:09:03.318787
Title: SPViT: Enabling Faster Vision Transformers via Soft Token Pruning
Title（参考訳）: spvit:soft token pruningによる視覚トランスフォーマーの高速化
Authors: Zhenglun Kong, Peiyan Dong, Xiaolong Ma, Xin Meng, Wei Niu, Mengshu Sun, Bin Ren, Minghai Qin, Hao Tang, Yanzhi Wang
Abstract要約: ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
参考スコア（独自算出の注目度）: 38.10083471492964
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, Vision Transformer (ViT) has continuously established new milestones in the computer vision field, while the high computation and memory cost makes its propagation in industrial production difficult. Pruning, a traditional model compression paradigm for hardware efficiency, has been widely applied in various DNN structures. Nevertheless, it stays ambiguous on how to perform exclusive pruning on the ViT structure. Considering three key points: the structural characteristics, the internal data pattern of ViTs, and the related edge device deployment, we leverage the input token sparsity and propose a computation-aware soft pruning framework, which can be set up on vanilla Transformers of both flatten and CNN-type structures, such as Pooling-based ViT (PiT). More concretely, we design a dynamic attention-based multi-head token selector, which is a lightweight module for adaptive instance-wise token selection. We further introduce a soft pruning technique, which integrates the less informative tokens generated by the selector module into a package token that will participate in subsequent calculations rather than being completely discarded. Our framework is bound to the trade-off between accuracy and computation constraints of specific edge devices through our proposed computation-aware training strategy. Experimental results show that our framework significantly reduces the computation cost of ViTs while maintaining comparable performance on image classification. Moreover, our framework can guarantee the identified model to meet resource specifications of mobile devices and FPGA, and even achieve the real-time execution of DeiT-T on mobile platforms. For example, our method reduces the latency of DeiT-T to 26 ms (26%$\sim $41% superior to existing works) on the mobile device with 0.25%$\sim $4% higher top-1 accuracy on ImageNet. Our code will be released soon.
Abstract（参考訳）: 近年,ビジョントランスフォーマー (ViT) はコンピュータビジョン分野において新たなマイルストーンを継続的に確立しており,高い計算とメモリコストが産業生産における伝播を困難にしている。ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。それでも、ViT構造上で排他的プルーニングを行う方法については曖昧である。我々は,vitの構造特性,vitの内部データパターン,関連するエッジデバイス配置の3つのキーポイントを考慮し,入力トークンスパーシティを活用し,プール型vit (pit) などのフラット構造およびcnn型構造のバニラトランス上に設定可能な,計算対応なソフトプルーニングフレームワークを提案する。より具体的には、適応型インスタンス単位のトークン選択のための軽量モジュールである動的アテンションベースのマルチヘッドトークンセレクタを設計する。我々はさらに,セレクタモジュールが生成する情報量が少ないトークンをパッケージトークンに統合するソフトプルーニング技術についても紹介する。我々のフレームワークは,提案した計算対応トレーニング戦略を通じて,特定のエッジデバイスの精度と計算制約のトレードオフに縛られている。実験の結果,vitsの計算コストを大幅に削減し,画像分類における同等の性能を維持した。さらに,本フレームワークは,モバイルデバイスやFPGAのリソース仕様を満たすための特定モデルを保証し,モバイルプラットフォーム上でのDeiT-Tのリアルタイム実行を実現する。例えば、当社の手法では、モバイルデバイス上のDeiT-Tのレイテンシを26ミリ秒(既存の作業よりも41%高い26%)に短縮し、ImageNetでは0.25%$\sim $4%高いトップ1精度を実現しています。私たちのコードはまもなくリリースされます。

関連論文リスト

Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文参考訳（メタデータ） (2025-03-24T19:56:02Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference [4.523939613157408]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。本稿では,これらの課題に対処するソフトウェアハードウェアの共同設計フレームワークであるCHOSENを紹介し,FPGA上にViTをデプロイするための自動フレームワークを提供する。 ChoSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
論文参考訳（メタデータ） (2024-07-17T16:56:06Z)
LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。 ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文参考訳（メタデータ） (2024-07-02T08:58:19Z)
PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。 ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文参考訳（メタデータ） (2023-10-06T21:45:05Z)
HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。 HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。 HeatViTは28.4%以上のコスト削減を実現している。
論文参考訳（メタデータ） (2022-11-15T13:00:43Z)
A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。 UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-12-17T20:11:56Z)
AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文参考訳（メタデータ） (2021-12-14T18:56:07Z)
A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文参考訳（メタデータ） (2021-11-30T05:01:02Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。