論文の概要: Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity
- arxiv url: http://arxiv.org/abs/2106.08846v2
- Date: Thu, 17 Jun 2021 04:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 11:26:46.284685
- Title: Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity
- Title(参考訳): アルゴリズムによるコンパイル協調設計:ニューラルネットワークの空間性の統合的視点
- Authors: Fu-Ming Guo, Austin Huang
- Abstract要約: BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
- 参考スコア(独自算出の注目度): 0.8566457170664925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reducing computation cost, inference latency, and memory footprint of neural
networks are frequently cited as research motivations for pruning and sparsity.
However, operationalizing those benefits and understanding the end-to-end
effect of algorithm design and regularization on the runtime execution is not
often examined in depth.
Here we apply structured and unstructured pruning to attention weights of
transformer blocks of the BERT language model, while also expanding block
sparse representation (BSR) operations in the TVM compiler. Integration of BSR
operations enables the TVM runtime execution to leverage structured pattern
sparsity induced by model regularization.
This integrated view of pruning algorithms enables us to study relationships
between modeling decisions and their direct impact on sparsity-enhanced
execution. Our main findings are: 1) we validate that performance benefits of
structured sparsity block regularization must be enabled by the BSR
augmentations to TVM, with 4x speedup relative to vanilla PyTorch and 2.2x
speedup relative to standard TVM compilation (without expanded BSR support). 2)
for BERT attention weights, the end-to-end optimal block sparsity shape in this
CPU inference context is not a square block (as in \cite{gray2017gpu}) but
rather a linear 32x1 block 3) the relationship between performance and block
size / shape is is suggestive of how model regularization parameters interact
with task scheduler optimizations resulting in the observed end-to-end
performance.
- Abstract(参考訳): ニューラルネットワークの計算コスト、推論レイテンシ、メモリフットプリントの削減は、プルーニングとスパーシティの研究モチベーションとしてしばしば引用される。
しかし、これらの利点を運用し、アルゴリズム設計とランタイム実行における正規化によるエンドツーエンドの効果を理解することは、しばしば検討されない。
本稿では,BERT言語モデルのトランスフォーマーブロックの重み付けに対して,構造化および非構造化プルーニングを適用するとともに,TVMコンパイラにおけるブロックスパース表現(BSR)操作を拡張する。
bsr操作の統合により、tvmランタイムの実行はモデル正規化によって引き起こされる構造化パターンスパーシティを活用できる。
このプルーニングアルゴリズムの統合ビューにより、モデリング決定と空間的拡張実行に対する直接的影響の関係を研究できる。
1)sparsityブロックの正規化によるパフォーマンス上のメリットは,bsrによるtvmの拡張によって実現されなければならないこと,また,vanilla pytorchと比較して4倍のスピードアップ,標準のtvmコンパイルと比較して2.2倍のスピードアップ(拡張されたbsrサポートなしで)が実現可能であること,の確認。
2) BERTアテンション重みの場合、このCPU推論コンテキストにおけるエンドツーエンドのブロック間隔の形状は、正方ブロックではなく、線形32x1ブロックである。 性能とブロックサイズ/形状の関係は、タスクスケジューラ最適化とモデル正規化パラメータがどのように相互作用するかが示唆される。
関連論文リスト
- LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - ParaFormer: Parallel Attention Transformer for Efficient Feature
Matching [8.552303361149612]
本稿ではParaFormerという新しい並列アテンションモデルを提案する。
振幅と位相という概念を通じて特徴とキーポイントの位置を融合させ、平行して自己と横断性を統合する。
ホモグラフィー推定、ポーズ推定、画像マッチングなど様々な応用実験により、ParaFormerが最先端の性能を達成することを示す。
効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-02T03:29:16Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Towards Structured Dynamic Sparse Pre-Training of BERT [4.567122178196833]
BERT言語モデリングタスクのための、単純で動的で、常にスパースな事前学習手法を開発し、研究する。
粗い粒度のブロック間隔を使用する場合、トレーニングはFLOP効率を保ち、現代のハードウェアアクセラレーター上での効率的な実行を特に有望であることを示す。
論文 参考訳(メタデータ) (2021-08-13T14:54:26Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted
Regularization Method [69.49386965992464]
本稿では, 汎用的かつ柔軟な構造化プルーニング次元と, 強力かつ効率的な再加重正規化手法を組み合わせたブロック型プルーニングフレームワークを提案する。
我々のフレームワークは普遍的であり、CNNとRNNの両方に適用できる。
リアルタイムモバイルアクセラレーションと精度の妥協のないCNNとRNNの共通カバレッジを実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-01-23T03:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。