論文の概要: Visual Transformer Pruning
- arxiv url: http://arxiv.org/abs/2104.08500v1
- Date: Sat, 17 Apr 2021 09:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:58:01.126527
- Title: Visual Transformer Pruning
- Title(参考訳): Visual Transformer Pruning
- Authors: Mingjian Zhu, Kai Han, Yehui Tang, Yunhe Wang
- Abstract要約: 我々は,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマープルーニング手法を提案する。
視覚的な変圧器のpruningのためのパイプラインは次の通りです:1)スパーシティの正規化を用いる訓練;2)pruningチャネル;3)微調整。
提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。
- 参考スコア(独自算出の注目度): 44.43429237788078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual transformer has achieved competitive performance on a variety of
computer vision applications. However, their storage, run-time memory, and
computational demands are hindering the deployment on mobile devices. Here we
present an visual transformer pruning approach, which identifies the impacts of
channels in each layer and then executes pruning accordingly. By encouraging
channel-wise sparsity in the Transformer, important channels automatically
emerge. A great number of channels with small coefficients can be discarded to
achieve a high pruning ratio without significantly compromising accuracy. The
pipeline for visual transformer pruning is as follows: 1) training with
sparsity regularization; 2) pruning channels; 3) finetuning. The reduced
parameters and FLOPs ratios of the proposed algorithm are well evaluated and
analyzed on ImageNet dataset to demonstrate its effectiveness.
- Abstract(参考訳): Visual Transformerは様々なコンピュータビジョンアプリケーションで競争力を発揮している。
しかし、ストレージ、実行時のメモリ、計算要求によってモバイルデバイスへのデプロイが妨げられている。
ここでは,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマリン方式を提案する。
Transformerでチャネルワイドのスパーシリティを促進することで、重要なチャネルが自動的に現れる。
精度を損なうことなく高い刈り取り率を達成するために、係数の小さいチャネルを大量に廃棄することができる。
ビジュアルトランスフォーマープルーニングのパイプラインは、1) スパーシティ正規化によるトレーニング、2) プルーニングチャネル、3) 微調整である。
提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。
関連論文リスト
- Automatic Channel Pruning for Multi-Head Attention [0.11049608786515838]
マルチヘッドアテンション機構を考慮した自動チャネルプルーニング手法を提案する。
ImageNet-1Kでは、FLatten Transformerにプルーニング法を適用し、いくつかのMACの精度が向上した。
論文 参考訳(メタデータ) (2024-05-31T14:47:20Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Adaptive Channel Encoding Transformer for Point Cloud Analysis [6.90125287791398]
Transformer-Convと呼ばれるチャネル畳み込みは、チャネルをエンコードするように設計されている。
座標と特徴の間の潜在的な関係をキャプチャすることで、特徴チャネルをエンコードすることができる。
提案手法は,3つのベンチマークデータセット上での最先端のクラウド分類とセグメンテーション手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-05T08:18:00Z) - Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-08-03T09:56:07Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。