論文の概要: Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference
- arxiv url: http://arxiv.org/abs/2405.14700v2
- Date: Thu, 29 Aug 2024 09:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 18:57:30.971734
- Title: Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference
- Title(参考訳): スパースチューニング:効率的な微調整と推論による視覚変換器の適応
- Authors: Ting Liu, Xuyang Liu, Siteng Huang, Liangtao Shi, Zunnan Xu, Yi Xin, Quanjun Yin, Xiaohong Liu,
- Abstract要約: textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
- 参考スコア(独自算出の注目度): 14.030836300221756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) has emerged as a popular solution for adapting pre-trained Vision Transformer (ViT) models to downstream applications. While current PEFT methods have achieved parameter efficiency, they overlook the efficiency of computation and GPU memory during both fine-tuning and inference, falling short of practical requirements. In this paper, we propose \textbf{Sparse-Tuning}, a novel PEFT method that accounts for the information redundancy in images and videos to boost the above efficiency. By sparsely preserving the semantic-relevant tokens and merging irrelevant ones, Sparse-Tuning minimizes the quantity of tokens processed at each layer, leading to a quadratic reduction in computational and memory overhead. To align our token sparsification strategy suitably with fine-tuning purposes, we further design Dense Adapters that establish dense connections from shallow layers to deeper layers. These Dense Adapters integrate multi-level local features to enrich the current tokens, improving both token preservation and model adaptation. Empirical results on VTAB-1K, three image datasets, and two video datasets show that our Sparse-Tuning reduces GFLOPs to \textbf{62\%-70\%} of the original ViT-B while achieving state-of-the-art performance. Source code is available at \url{https://github.com/liuting20/Sparse-Tuning}.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は、トレーニング済みの視覚変換器(ViT)モデルを下流アプリケーションに適用するための一般的なソリューションとして登場した。
現在のPEFT法はパラメータ効率を達成しているが、微調整と推論の両方において計算とGPUメモリの効率を軽視し、実際的な要件を欠いている。
本稿では,画像やビデオにおける情報冗長性を考慮に入れた新しいPEFT手法である \textbf{Sparse-Tuning} を提案する。
意味関連トークンをわずかに保存し、無関係トークンをマージすることで、スパースチューニングは各層で処理されるトークンの量を最小化し、計算とメモリオーバーヘッドを2次的に削減する。
トークンスペーシフィケーション戦略を微調整の目的に合わせるため、浅い層から深い層への密接な接続を確立するDense Adapterをさらに設計する。
これらのDense Adapterは、複数のレベルのローカル機能を統合して、現在のトークンを強化し、トークン保存とモデル適応の両方を改善します。
VTAB-1Kと3つの画像データセット、および2つのビデオデータセットの実証結果から、私たちのスパースチューニングは、GFLOPを、最先端のパフォーマンスを達成しつつ、元のViT-Bの \textbf{62\%-70\%} に還元することを示す。
ソースコードは \url{https://github.com/liuting20/Sparse-Tuning} で入手できる。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法と比較すると、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。