論文の概要: SparDA: Accelerating Dynamic Sparse Deep Neural Networks via
Sparse-Dense Transformation
- arxiv url: http://arxiv.org/abs/2301.10936v1
- Date: Thu, 26 Jan 2023 04:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:20:09.830951
- Title: SparDA: Accelerating Dynamic Sparse Deep Neural Networks via
Sparse-Dense Transformation
- Title(参考訳): SparDA: スパース密度変換による動的スパースディープニューラルネットワークの高速化
- Authors: Ningxin Zheng, Huiqiang Jiang, Quanlu Zhang, Zhenhua Han, Yuqing Yang,
Lingxiao Ma, Fan Yang, Lili Qiu, Mao Yang, Lidong Zhou
- Abstract要約: 本研究では,動的間隔でディープラーニングモデルを効率的に実行するためのシステムSpiderを提案する。
スパイダーは無視できるオーバーヘッドでダイナミックな空間を抽出し変換できるが、最先端の溶液よりも9.4倍のスピードアップをもたらす。
- 参考スコア(独自算出の注目度): 15.348888812047049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to its high cost-effectiveness, sparsity has become the most important
approach for building efficient deep-learning models. However, commodity
accelerators are built mainly for efficient dense computation, creating a huge
gap for general sparse computation to leverage. Existing solutions have to use
time-consuming compiling to improve the efficiency of sparse kernels in an
ahead-of-time manner and thus are limited to static sparsity. A wide range of
dynamic sparsity opportunities is missed because their sparsity patterns are
only known at runtime. This limits the future of building more biological
brain-like neural networks that should be dynamically and sparsely activated.
In this paper, we bridge the gap between sparse computation and commodity
accelerators by proposing a system, called Spider, for efficiently executing
deep learning models with dynamic sparsity. We identify an important property
called permutation invariant that applies to most deep-learning computations.
The property enables Spider (1) to extract dynamic sparsity patterns of tensors
that are only known at runtime with little overhead; and (2) to transform the
dynamic sparse computation into an equivalent dense computation which has been
extremely optimized on commodity accelerators. Extensive evaluation on diverse
models shows Spider can extract and transform dynamic sparsity with negligible
overhead but brings up to 9.4x speedup over state-of-art solutions.
- Abstract(参考訳): コスト効率が高いため、効率的なディープラーニングモデルを構築する上では、スパーシリティが最も重要なアプローチとなっている。
しかし、コモディティ・アクセラレーターは主に高効率な密度計算のために構築され、一般的なスパース計算を利用するための大きなギャップを生み出す。
既存のソリューションでは、スパースカーネルの効率を前もって改善するために時間を要するため、静的な間隔に制限される。
分散パターンが実行時にのみ知られるため、幅広い動的疎性機会が欠落している。
これにより、より生物学的な脳のようなニューラルネットワークの構築が制限される。
本稿では,分散計算とコモディティ・アクセラレーターのギャップを,動的疎性を持つディープラーニングモデルを効率的に実行するためのSpiderと呼ばれるシステムを提案する。
多くのディープラーニング計算に適用可能な置換不変量という重要な特性を同定する。
この性質により、Spider (1) は実行時にほとんどオーバーヘッドのないテンソルの動的スパースパターンを抽出し、(2) 動的スパース計算を商品加速器に非常に最適化された等価な密度計算に変換することができる。
多様なモデルに対する広範囲な評価により、スパイダーは不可解なオーバーヘッドで動的スパーシティを抽出および変換できるが、最先端のソリューションよりも最大9.4倍のスピードアップをもたらす。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Dynamic Sparse Training with Structured Sparsity [11.778353786208765]
ダイナミックスパーストレーニング(DST)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成する。
本研究では, 微細構造N:M空間の変形を学習するために, スパース・ツー・スパースDST法, Structured RigL (SRigL)を提案する。
オンライン推論用CPUでは3.4x/2.5x、GPUでは1.7x/13.0x、バッチサイズは256である。
論文 参考訳(メタデータ) (2023-05-03T17:48:55Z) - Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文 参考訳(メタデータ) (2021-12-01T22:55:23Z) - Dual-side Sparse Tensor Core [18.204976918925635]
既存のGPUは、重みからしか利用できないが、アクティベーションではない。
両面間隔(重みとアクティベーション間隔)を効率的に活用する新しいアーキテクチャを提案する。
我々の設計では、両面の間隔を完全に解き、最小限のハードウェアオーバーヘッドで最大1桁の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-05-20T07:36:16Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。
我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-08-29T16:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。