論文の概要: PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation
Invariant Transformation
- arxiv url: http://arxiv.org/abs/2301.10936v2
- Date: Sun, 8 Oct 2023 01:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 15:07:33.359540
- Title: PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation
Invariant Transformation
- Title(参考訳): PIT:置換不変変換による動的スパース深層学習モデルの最適化
- Authors: Ningxin Zheng, Huiqiang Jiang, Quanlu Zhang, Zhenhua Han, Yuqing Yang,
Lingxiao Ma, Fan Yang, Chengruidong Zhang, Lili Qiu, Mao Yang, Lidong Zhou
- Abstract要約: 動的スパーシ性計算のための置換不変変換(PIT)を提案する。
PITは、結果を変えることなく、マイクロタイルをGPU効率の高い高密度タイルに変換する。
最先端のコンパイラで5.9倍(平均2.43倍)の動的空間計算を高速化することができる。
- 参考スコア(独自算出の注目度): 15.860204740425791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic sparsity, where the sparsity patterns are unknown until runtime,
poses a significant challenge to deep learning. The state-of-the-art
sparsity-aware deep learning solutions are restricted to pre-defined, static
sparsity patterns due to significant overheads associated with preprocessing.
Efficient execution of dynamic sparse computation often faces the misalignment
between the GPU-friendly tile configuration for efficient execution and the
sparsity-aware tile shape that minimizes coverage wastes (non-zero values in
tensor).
In this paper, we propose PIT, a deep-learning compiler for dynamic sparsity.
PIT proposes a novel tiling mechanism that leverages Permutation Invariant
Transformation (PIT), a mathematically proven property, to transform multiple
sparsely located micro-tiles into a GPU-efficient dense tile without changing
the computation results, thus achieving both high GPU utilization and low
coverage waste. Given a model, PIT first finds feasible PIT rules for all its
operators and generates efficient GPU kernels accordingly. At runtime, with the
novel SRead and SWrite primitives, PIT rules can be executed extremely fast to
support dynamic sparsity in an online manner. Extensive evaluation on diverse
models shows that PIT can accelerate dynamic sparsity computation by up to 5.9x
(average 2.43x) over state-of-the-art compilers.
- Abstract(参考訳): 実行時まで疎結合パターンが不明な動的疎結合は、ディープラーニングに重大な課題をもたらす。
state-of-the-art sparsity-aware deep learningソリューションは、事前処理に伴う大きなオーバーヘッドのため、事前に定義された静的スパーシティパターンに制限されている。
動的スパース計算の効率的な実行は、効率の良い実行のためにgpuフレンドリーなタイル構成と、カバレッジの無駄(テンソルのゼロでない値)を最小限に抑えるスパーシティアウェアタイル形状の不一致に直面することが多い。
本稿では,動的スパーシティのためのディープラーニングコンパイラpitを提案する。
pitは、数学的に証明された特性である置換不変変換(permutation invariant transformation:pit)を利用して、計算結果を変更せずに、複数のスパース配置されたマイクロタイルをgpu効率の高い高密度タイルに変換する新しいタイル機構を提案する。
モデルが与えられた後、PITはまずすべての演算子に対して実行可能なPITルールを見つけ、それに従って効率的なGPUカーネルを生成する。
実行時に、新しいSReadとSWriteプリミティブを使うことで、PITルールを極めて高速に実行し、オンライン形式で動的スパーシリティをサポートすることができる。
多様なモデルに対する広範囲な評価は、PITが最先端のコンパイラよりも5.9倍(平均2.43倍)の動的空間計算を加速できることを示している。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Dynamic Sparse Training with Structured Sparsity [11.778353786208765]
ダイナミックスパーストレーニング(DST)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成する。
本研究では, 微細構造N:M空間の変形を学習するために, スパース・ツー・スパースDST法, Structured RigL (SRigL)を提案する。
オンライン推論用CPUでは3.4x/2.5x、GPUでは1.7x/13.0x、バッチサイズは256である。
論文 参考訳(メタデータ) (2023-05-03T17:48:55Z) - Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文 参考訳(メタデータ) (2021-12-01T22:55:23Z) - Dual-side Sparse Tensor Core [18.204976918925635]
既存のGPUは、重みからしか利用できないが、アクティベーションではない。
両面間隔(重みとアクティベーション間隔)を効率的に活用する新しいアーキテクチャを提案する。
我々の設計では、両面の間隔を完全に解き、最小限のハードウェアオーバーヘッドで最大1桁の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-05-20T07:36:16Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。
我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-08-29T16:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。