論文の概要: PSViT: A Methodology for Structurally Pruning Spiking Vision Transformers
- arxiv url: http://arxiv.org/abs/2606.03257v1
- Date: Tue, 02 Jun 2026 07:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.832225
- Title: PSViT: A Methodology for Structurally Pruning Spiking Vision Transformers
- Title(参考訳): PSViT:スパイキング・ビジョン・トランスの構造解析手法
- Authors: Rachmad Vidya Wicaksana Putra, Achyuta Muthuvelan, Alberto Marchisio, Muhammad Shafique,
- Abstract要約: Spiking Vision Transformer (SViT)モデルは、視覚ベースのタスクを解決するために低消費電力のViTモデルを約束している。
SViTモデル上で構造化プルーニングを行う新しい手法であるPSViTを提案する。
- 参考スコア(独自算出の注目度): 2.9583391652768314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking Vision Transformer (SViT) models are promising low-power ViT models for solving vision-based tasks with state-of-the-art performance. However, their large sizes limit their deployments for resource-constrained embedded platforms, underscoring the needs of model compression. One of prominent compression techniques is pruning, and the state-of-the-art works employ unstructured pruning techniques to compress SViT models. Such techniques require specialized hardware architectures tailored for the sparsity patterns to maximize their efficiency benefits, making this approach not scalable. To address this, we propose PSViT, a novel methodology to perform structured pruning on SViT models, hence making it possible to efficiently accelerate their inference using the existing and widely-used computing architectures. To do this, PSViT employs several key steps: uniform channel-wise filter pruning to structurally eliminate the non-significant weights, sensitivity analysis to evaluate the impact of channel-wise pruning of individual layer on accuracy and network size, as well as fine-grained channel-wise pruning based on the sensitivity analysis and the given network architecture. Experimental results show that PSViT effectively obtains 22.4% memory saving through single-shot pruning, while maintaining high accuracy within 3% (70.3% without fine-tuning and 72.8% with fine-tuning) from the original non-pruned SViT model (73.3%) on the ImageNet-1K. These results also show that the PSViT methodology advances the effort in enabling efficient SViT deployments on resource-constrained applications.
- Abstract(参考訳): Spiking Vision Transformer (SViT)モデルは、最先端のパフォーマンスでビジョンベースのタスクを解決するために、低消費電力のViTモデルを約束している。
しかし、その大きなサイズは、リソースに制約のある組み込みプラットフォームへのデプロイメントを制限し、モデル圧縮の必要性を強調している。
顕著な圧縮技術の一つがプルーニングであり、最先端の作業では非構造化プルーニング技術を用いてSViTモデルを圧縮している。
このような技術は、その効率性を最大化するために、スパーシティパターンに適した特殊なハードウェアアーキテクチャを必要とするため、このアプローチはスケーラブルではない。
そこで本研究では,SViTモデル上で構造化プルーニングを行う新しい手法であるPSViTを提案する。
これを実現するために、PSViTは、非重みを構造的に排除するための一様チャネルワイドフィルタプルーニング、個別層のチャネルワイドプルーニングが精度とネットワークサイズに与える影響を評価するための感度分析、および感度分析と所定のネットワークアーキテクチャに基づく細粒チャネルワイドプルーニングを用いる。
実験の結果、PSViTはシングルショットプルーニングで22.4%のメモリ節約を効果的に達成し、ImageNet-1K上の元の非実行SViTモデル(73.3%)から3%(微調整なし70.3%、微調整なし72.8%)の精度を維持した。
これらの結果は、PSViT方法論がリソース制約のあるアプリケーションに効率的なSViTデプロイメントを実現するための努力を前進させることも示している。
関連論文リスト
- PrimeSVT: An Automated Memory-aware Pruning Framework with Prioritized Compression Policy for Spiking Vision Transformers [2.9583391652768314]
Spiking Vision Transformers (SViT)は、モデル圧縮の必要性を強調しながら、組み込み実装を妨げている。
本稿では,事前学習したSViTモデル上でメモリ認識型構造化プルーニングを実行する新しいフレームワークであるPrimeSVTを提案する。
実験の結果、PrimeSVTは自動単発プルーニングにより26.68%のメモリを節約した。
論文 参考訳(メタデータ) (2026-06-02T10:18:00Z) - QSViT: A Methodology for Quantizing Spiking Vision Transformers [5.343921650701002]
ビジョントランスフォーマー(ViT)ベースのモデルでは、ビジョンベースのAIタスクにおける最先端のパフォーマンス(精度など)が示されている。
しかし、リソースに制約のある組み込みAIシステムにおいて、その能力を実現することは、その固有の大きなメモリフットプリントのために困難である。
本稿では,SViTモデルを体系的な量子化戦略により圧縮する新しい設計手法であるQSViTを提案する。
論文 参考訳(メタデータ) (2025-04-01T16:34:46Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Efficient Neural Net Approaches in Metal Casting Defect Detection [0.0]
本研究は,精度と推定時間の観点から効率の良い軽量アーキテクチャを提案する。
以上の結果から,深度的に分離可能な畳み込みを持つ590Kパラメータのカスタムモデルが事前学習アーキテクチャよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-08-08T13:54:36Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。