論文の概要: GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer
- arxiv url: http://arxiv.org/abs/2301.05345v1
- Date: Fri, 13 Jan 2023 00:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:07:11.546135
- Title: GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer
- Title(参考訳): GOHSP:視覚変換器のためのグラフと最適化に基づく不均一構造解析フレームワーク
- Authors: Miao Yin, Burak Uzkent, Yilin Shen, Hongxia Jin, Bo Yuan
- Abstract要約: 視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
- 参考スコア(独自算出の注目度): 76.2625311630021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recently proposed Vision transformers (ViTs) have shown very impressive
empirical performance in various computer vision tasks, and they are viewed as
an important type of foundation model. However, ViTs are typically constructed
with large-scale sizes, which then severely hinder their potential deployment
in many practical resources-constrained applications. To mitigate this
challenging problem, structured pruning is a promising solution to compress
model size and enable practical efficiency. However, unlike its current
popularity for CNNs and RNNs, structured pruning for ViT models is little
explored.
In this paper, we propose GOHSP, a unified framework of Graph and
Optimization-based Structured Pruning for ViT models. We first develop a
graph-based ranking for measuring the importance of attention heads, and the
extracted importance information is further integrated to an optimization-based
procedure to impose the heterogeneous structured sparsity patterns on the ViT
models. Experimental results show that our proposed GOHSP demonstrates
excellent compression performance. On CIFAR-10 dataset, our approach can bring
40% parameters reduction with no accuracy loss for ViT-Small model. On ImageNet
dataset, with 30% and 35% sparsity ratio for DeiT-Tiny and DeiT-Small models,
our approach achieves 1.65% and 0.76% accuracy increase over the existing
structured pruning methods, respectively.
- Abstract(参考訳): 最近提案されたビジョン変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な性能を示しており、これらは重要な基礎モデルのタイプと見なされている。
しかし、vitは通常、大規模なサイズで構築されるため、多くの実用的なリソース制約されたアプリケーションでの潜在的なデプロイを著しく阻害する。
この課題を軽減するため、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
しかし、現在のCNNやRNNの人気とは異なり、ViTモデルの構造化プルーニングはほとんど検討されていない。
本稿では,グラフと最適化に基づく構造的プルーニング(Structured Pruning for ViT model)の統一フレームワークであるGOHSPを提案する。
まず,注目点の重要度を測定するグラフベースランキングを作成し,その重要度を最適化した手法に統合し,不均一な構造的空間パターンをViTモデルに付加する。
実験の結果,提案したGOHSPは優れた圧縮性能を示した。
CIFAR-10データセットでは、ViT-Smallモデルに対して精度損失を伴わずに40%のパラメータを削減できる。
ImageNetデータセットでは,DeiT-TinyモデルとDeiT-Smallモデルでは30%と35%の間隔比で,既存の構造化プルーニング法に比べて1.65%と0.76%の精度向上を実現している。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - COMCAT: Towards Efficient Compression and Customization of
Attention-Based Vision Models [21.07857091998763]
本稿では、視覚変換器を圧縮し、コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させる効率的な方法を提案する。
ImageNet上でDeiT-smallモデルとDeiT-baseモデルを圧縮する場合,提案手法はパラメータが少なくても0.45%,0.76%高いトップ1精度が得られる。
論文 参考訳(メタデータ) (2023-05-26T19:50:00Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。