論文の概要: Dynamic N:M Fine-grained Structured Sparse Attention Mechanism
- arxiv url: http://arxiv.org/abs/2203.00091v1
- Date: Mon, 28 Feb 2022 20:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:54:14.581304
- Title: Dynamic N:M Fine-grained Structured Sparse Attention Mechanism
- Title(参考訳): 動的N:M微細粒構造スパースアテンション機構
- Authors: Zhaodong Chen, Yuying Quan, Zheng Qu, Liu Liu, Yufei Ding, Yuan Xie
- Abstract要約: トランスフォーマーは、NLPやコンピュータビジョンといった様々なタスクのメインストリームのソリューションになりつつある。
その成功にもかかわらず、注意機構の複雑さは、レイテンシに敏感なタスクに適用されることを妨げる。
DFSSは,N:M微細構造パターンに注意行列を動的に呈示するアテンション機構である。
- 参考スコア(独自算出の注目度): 21.74230717276263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are becoming the mainstream solutions for various tasks like NLP
and Computer vision. Despite their success, the high complexity of the
attention mechanism hinders them from being applied to latency-sensitive tasks.
Tremendous efforts have been made to alleviate this problem, and many of them
successfully reduce the asymptotic complexity to linear. Nevertheless, most of
them fail to achieve practical speedup over the original full attention under
moderate sequence lengths and are unfriendly to finetuning. In this paper, we
present DFSS, an attention mechanism that dynamically prunes the full attention
weight matrix to N:M fine-grained structured sparse pattern. We provide both
theoretical and empirical evidence that demonstrates DFSS is a good
approximation of the full attention mechanism. We propose a dedicated CUDA
kernel design that completely eliminates the dynamic pruning overhead and
achieves speedups under arbitrary sequence length. We evaluate the 1:2 and 2:4
sparsity under different configurations and achieve 1.27~ 1.89x speedups over
the full-attention mechanism. It only takes a couple of finetuning epochs from
the pretrained model to achieve on par accuracy with full attention mechanism
on tasks from various domains under different sequence lengths from 384 to
4096.
- Abstract(参考訳): トランスフォーマーは、NLPやコンピュータビジョンといった様々なタスクのメインストリームのソリューションになりつつある。
その成功にもかかわらず、注意機構の複雑さは、レイテンシに敏感なタスクに適用されることを妨げる。
この問題を軽減するために多大な努力がなされており、その多くが漸近的な複雑さを線形に削減することに成功している。
しかしながら、そのほとんどは、中程度のシーケンス長で元のフルアテンションよりも実用的なスピードアップを達成することができず、微調整には不向きである。
本稿では, n:m細粒度構造スパースパターンに対して, 全注意重み行列を動的にプルーピングするアテンション機構であるdfssについて述べる。
DFSSが完全な注意機構のよい近似であることを示す理論的および経験的証拠の両方を提供する。
我々は,動的プルーニングのオーバーヘッドを完全に排除し,任意のシーケンス長で高速化を実現するcudaカーネル設計を提案する。
1:2と2:4の間隔を異なる構成で評価し、フルアテンション機構上で1.27〜1.89倍のスピードアップを達成する。
384から4096までの異なるシーケンス長の様々なドメインのタスクに対する完全な注意機構でパー精度を達成するには、事前訓練されたモデルからいくつかの微調整エポックしか必要ありません。
関連論文リスト
- Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - SS-Auto: A Single-Shot, Automatic Structured Weight Pruning Framework of
DNNs with Ultra-High Efficiency [42.63352504047665]
本稿では,構造的重み付けの限界を緩和する枠組みを提案する。
提案手法は精度を保ちながら超高速を実現することができる。
CIFARAR-100データセットの実験により、提案したフレームワークが超高精度に実現できることが示された。
論文 参考訳(メタデータ) (2020-01-23T22:45:02Z) - SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。
スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。
得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文 参考訳(メタデータ) (2019-10-16T23:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。