Fugu-MT 論文翻訳(概要): SNP: Structured Neuron-level Pruning to Preserve Attention Scores

論文の概要: SNP: Structured Neuron-level Pruning to Preserve Attention Scores

arxiv url: http://arxiv.org/abs/2404.11630v1
Date: Thu, 18 Apr 2024 03:21:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 20:10:25.539093
Title: SNP: Structured Neuron-level Pruning to Preserve Attention Scores
Title（参考訳）: SNP:注意スコアの保存を目的とした構造化ニューロンレベルのプルーニング
Authors: Kyunghwan Shim, Jaewoong Yun, Shinkook Choi,
Abstract要約: マルチヘッド自己注意(MSA)は視覚変換器(ViT)の重要な構成要素である我々は,新しいグラフ対応ニューロンレベルプルーニング法,構造化ニューロンレベルプルーニング(Structured Neuron-level Pruning, SNP)を提案する。提案手法は,エッジデバイスとサーバプロセッサの両方において,Transformerベースのモデルを効果的に圧縮・高速化する。
参考スコア（独自算出の注目度）: 2.4204190488008046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-head self-attention (MSA) is a key component of Vision Transformers (ViTs), which have achieved great success in various vision tasks. However, their high computational cost and memory footprint hinder their deployment on resource-constrained devices. Conventional pruning approaches can only compress and accelerate the MSA module using head pruning, although the head is not an atomic unit. To address this issue, we propose a novel graph-aware neuron-level pruning method, Structured Neuron-level Pruning (SNP). SNP prunes neurons with less informative attention scores and eliminates redundancy among heads. Specifically, it prunes graphically connected query and key layers having the least informative attention scores while preserving the overall attention scores. Value layers, which can be pruned independently, are pruned to eliminate inter-head redundancy. Our proposed method effectively compresses and accelerates Transformer-based models for both edge devices and server processors. For instance, the DeiT-Small with SNP runs 3.1$\times$ faster than the original model and achieves performance that is 21.94\% faster and 1.12\% higher than the DeiT-Tiny. Additionally, SNP combine successfully with conventional head or block pruning approaches. SNP with head pruning could compress the DeiT-Base by 80\% of the parameters and computational costs and achieve 3.85$\times$ faster inference speed on RTX3090 and 4.93$\times$ on Jetson Nano.
Abstract（参考訳）: マルチヘッド自己注意(Multi-head Self-attention、MSA)は視覚変換器(ViT)の重要なコンポーネントであり、様々な視覚タスクで大きな成功を収めた。しかし、その高い計算コストとメモリフットプリントは、リソースに制約のあるデバイスへの展開を妨げる。従来のプルーニング手法では、頭部は原子単位ではないが、ヘッドプルーニングを用いてMSAモジュールを圧縮・加速できる。この問題に対処するために,新しいグラフ対応ニューロンレベルプルーニング手法であるStructured Neuron-level Pruning (SNP)を提案する。 SNPは情報的注意スコアの少ない神経細胞をプルーネし、頭部の冗長性を排除している。具体的には、グラフィカルに接続されたクエリと、全体的な注意スコアを維持しながら、最も情報に乏しい注意スコアを持つキーレイヤを具現化する。独立してプルーニングできるバリューレイヤは、ヘッド間の冗長性を排除するためにプルーニングされる。提案手法は,エッジデバイスとサーバプロセッサの両方において,Transformerベースのモデルを効果的に圧縮・高速化する。例えば、SNP付きDeiT-Smallは、オリジナルのモデルよりも3.1$\times$速く、21.94\%、DeiT-Tinyより1.12\%高いパフォーマンスを達成する。さらに、SNPは従来のヘッドまたはブロックプルーニングアプローチとうまく結合する。ヘッドプルーニングのSNPは、パラメータと計算コストの80%をDeiT-Baseに圧縮し、RTX3090では3.85$\times$、Jetson Nanoでは4.93$\times$を達成した。

関連論文リスト

Transformer Neural Processes - Kernel Regression [2.309018557701645]
我々は、スケーラブルニューラルネットワーク(NP)であるTransformer Neural Process - Kernel Regression (TNP-KR)を紹介する。 TNP-KRは、単純でパラメータで効率的なトランスフォーマーブロックであるKernel Regression Block (KR-Block)と、Scan attention (SA)、メモリ効率のよいスキャンベースバイアス、Deep kernel attention (DKA)の2つの新しい注意機構を備えている。これらの拡張により、TNP-KR変異体は100Kで推論を行うことができる。
論文参考訳（メタデータ） (2024-11-19T13:40:49Z)
Maxwell's Demon at Work: Efficient Pruning by Leveraging Saturation of Neurons [27.289945121113277]
死ニューロンの増殖を動的に制御するDemPを導入する。 CIFAR10とImageNetデータセットの実験では、精度とスパーシリティのトレードオフが優れている。
論文参考訳（メタデータ） (2024-03-12T14:28:06Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文参考訳（メタデータ） (2023-01-21T04:08:46Z)
Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。 Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文参考訳（メタデータ） (2022-11-23T06:56:12Z)
Receding Neuron Importances for Structured Pruning [11.375436522599133]
構造化プルーニングは、重要でないニューロンを特定して除去することで、ネットワークを効率的に圧縮する。境界スケーリングパラメータを持つ単純なBatchNorm変動を導入し、低重要性のニューロンのみを抑制する新しい正規化項を設計する。我々は、この方法でトレーニングされたニューラルネットワークを、より大きく、より少ない劣化で刈り取ることができることを示した。
論文参考訳（メタデータ） (2022-04-13T14:08:27Z)
Weight, Block or Unit? Exploring Sparsity Tradeoffs for Speech Enhancement on Tiny Neural Accelerators [4.1070979067056745]
我々は、低消費電力マイクロコントローラベースのニューラルアクセラレータ(microNPU)の新世代のための最適構成まで、ニューラルネットワーク拡張(SE)を圧縮する目的で、ネットワークスペーシフィケーション戦略を検討する。本研究は, 軽量刈り, ブロック刈り, ユニット刈りの3つの特異な空間構造について検討し, SEに適用した場合の利点と欠点について考察する。
論文参考訳（メタデータ） (2021-11-03T17:06:36Z)
GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。 GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。 CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2021-09-06T03:17:10Z)
1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文参考訳（メタデータ） (2021-05-31T05:50:33Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Network Automatic Pruning: Start NAP and Take a Nap [94.14675930881366]
我々は,粒度および構造化プルーニングのための統一かつ自動プルーニングフレームワークであるNAPを提案する。ネットワークの重要でないコンポーネントを見つけ出し、異なるレイヤに対する適切な圧縮比を自動的に決定する。使いやすさにもかかわらず、NAPは以前のプルーニング法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-01-17T07:09:19Z)
SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning [10.981433334942476]
本稿では,トークンの空白度,頭部の空白度,量子化の機会を利用して注意計算やメモリアクセスを減らす,効率的なアルゴリズムアーキテクチャの共同設計であるSpAttenを提案する。 30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
論文参考訳（メタデータ） (2020-12-17T18:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。