論文の概要: Global Vision Transformer Pruning with Hessian-Aware Saliency
- arxiv url: http://arxiv.org/abs/2110.04869v2
- Date: Wed, 29 Mar 2023 21:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:47:28.570747
- Title: Global Vision Transformer Pruning with Hessian-Aware Saliency
- Title(参考訳): hessian-aware saliencyを用いたグローバルビジョントランスフォーマーのプルーニング
- Authors: Huanrui Yang, Hongxu Yin, Maying Shen, Pavlo Molchanov, Hai Li, Jan
Kautz
- Abstract要約: この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
- 参考スコア(独自算出の注目度): 93.33895899995224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers yield state-of-the-art results across many tasks. However, their
heuristically designed architecture impose huge computational costs during
inference. This work aims on challenging the common design philosophy of the
Vision Transformer (ViT) model with uniform dimension across all the stacked
blocks in a model stage, where we redistribute the parameters both across
transformer blocks and between different structures within the block via the
first systematic attempt on global structural pruning. Dealing with diverse ViT
structural components, we derive a novel Hessian-based structural pruning
criteria comparable across all layers and structures, with latency-aware
regularization for direct latency reduction. Performing iterative pruning on
the DeiT-Base model leads to a new architecture family called NViT (Novel ViT),
with a novel parameter redistribution that utilizes parameters more
efficiently. On ImageNet-1K, NViT-Base achieves a 2.6x FLOPs reduction, 5.1x
parameter reduction, and 1.9x run-time speedup over the DeiT-Base model in a
near lossless manner. Smaller NViT variants achieve more than 1% accuracy gain
at the same throughput of the DeiT Small/Tiny variants, as well as a lossless
3.3x parameter reduction over the SWIN-Small model. These results outperform
prior art by a large margin. Further analysis is provided on the parameter
redistribution insight of NViT, where we show the high prunability of ViT
models, distinct sensitivity within ViT block, and unique parameter
distribution trend across stacked ViT blocks. Our insights provide viability
for a simple yet effective parameter redistribution rule towards more efficient
ViTs for off-the-shelf performance boost.
- Abstract(参考訳): トランスフォーマーは多くのタスクで最先端の結果をもたらす。
しかし、そのヒューリスティックな設計のアーキテクチャは推論中に膨大な計算コストを課す。
本研究は,視覚トランスフォーマー (vit) モデルの共通設計哲学に挑戦することを目的としており,モデル段階において,全体構造平滑化の最初の体系的試みを通じて,トランスフォーマーブロック間およびブロック内の異なる構造間でパラメータを再分配する。
多様な ViT 構造コンポーネントを扱えるようにすることで,すべてのレイヤや構造に匹敵する新しいヘッセン系構造プルーニング基準を導出します。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に活用する新しいパラメータ再配布が実現される。
ImageNet-1Kでは、NViT-Baseは2.6倍のFLOP削減、5.1倍のパラメータ削減、1.9倍の高速化を実現している。
より小さなNViT変種は、DeiT Small/Tiny変種と同じスループットで1%以上の精度向上を実現し、SWIN-Smallモデルよりも3.3倍のパラメータ削減を実現している。
これらの結果は、先行技術を大きく上回っている。
さらに、NViTのパラメータ再分配の洞察に基づいて、ViTモデルの高い照準性、ViTブロック内での異なる感度、および積み重ねられたViTブロック間の一意なパラメータ分布傾向を示す。
我々の知見は、市販の性能向上のためのより効率的なViTに対する、単純で効果的なパラメータ再分配ルールの実現可能性を提供する。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - EIT: Efficiently Lead Inductive Biases to ViT [17.66805405320505]
ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。
本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
論文 参考訳(メタデータ) (2022-03-14T14:01:17Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。