論文の概要: SparseTIR: Composable Abstractions for Sparse Compilation in Deep
Learning
- arxiv url: http://arxiv.org/abs/2207.04606v1
- Date: Mon, 11 Jul 2022 03:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:58:38.476113
- Title: SparseTIR: Composable Abstractions for Sparse Compilation in Deep
Learning
- Title(参考訳): SparseTIR:ディープラーニングにおけるスパースコンパイルのための構成可能な抽象化
- Authors: Zihao Ye, Ruihang Lai, Junru Shao, Tianqi Chen, Luis Ceze
- Abstract要約: スパーステンソルコンパイラは演算子の開発を単純化するが、ディープラーニングのための効率的なスパースコンパイルは依然として困難である。
両課題に対処する鍵は,2種類の構成可能性であることを示す。
本稿では、構成可能なフォーマットと構成可能な変換を提供するスパーステンソルコンパイル抽象化であるSparseTIRを提案する。
- 参考スコア(独自算出の注目度): 11.251022748134215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse tensors are rapidly becoming critical components of modern deep
learning workloads. However, developing high-performance sparse operators can
be difficult and tedious, and existing vendor libraries cannot satisfy the
escalating demands from new operators. Sparse tensor compilers simplify the
development of operators, but efficient sparse compilation for deep learning
remains challenging because a single sparse format cannot maximize hardware
efficiency, and single-shot compilers cannot keep up with latest hardware and
system advances. We show that the key to addressing both challenges is two
forms of composability. In this paper, we propose SparseTIR, a sparse tensor
compilation abstraction that offers composable formats and composable
transformations for deep learning workloads. SparseTIR constructs a search
space over these composable components for performance tuning. With these
improvements, SparseTIR obtains consistent performance speedups vs vendor
libraries on GPUs for single operators: 1.1-3.3x for GNN operators and 1.1-4.4x
for sparse transformer operators. SparseTIR also accelerates end-to-end GNNs by
1.1-2.2x for GraphSAGE training and 0.9-26x for RGCN inference.
- Abstract(参考訳): スパーステンソルは、現代のディープラーニングワークロードにおいて、急速に重要なコンポーネントになりつつある。
しかし、高性能スパース演算子の開発は困難で面倒であり、既存のベンダーライブラリは新しい演算子からのエスカレート要求を満たすことができない。
スパーステンソルコンパイラはオペレータの開発を単純化するが、単一のスパースフォーマットではハードウェア効率を最大化できず、シングルショットコンパイラは最新のハードウェアやシステムの進歩に追随できないため、ディープラーニングのための効率的なスパースコンパイルは依然として困難である。
両課題に対処する鍵は,2種類の構成可能性であることを示す。
本稿では,深層学習ワークロードに対して,構成可能なフォーマットと構成可能な変換を提供するスパーステンソルコンパイル抽象化であるSparseTIRを提案する。
SparseTIRは、これらの構成可能なコンポーネントの上に検索空間を構築し、パフォーマンスチューニングを行う。
これらの改善により、sparsetirはシングルオペレーター向けのgpuにおけるベンダーライブラリに比べて一貫したパフォーマンスのスピードアップを得る: gnnオペレーターは1.1-3.3x、スパーストランスフォーマーオペレーターは1.1-4.4x。
SparseTIRはまた、GraphSAGEトレーニングの1.1-2.2x、RCCN推論の0.9-26xでエンドツーエンドのGNNを高速化する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - TorchSparse++: Efficient Training and Inference Framework for Sparse
Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。
既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。
TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文 参考訳(メタデータ) (2023-10-25T21:02:38Z) - Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文 参考訳(メタデータ) (2023-05-24T06:42:44Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Boosting Neural Networks to Decompile Optimized Binaries [13.255618541522436]
Decompilation は低レベルプログラム言語 (LPL) を機能的に等価な高レベルプログラム言語 (HPL) に変換することを目的としている。
本稿では,コンパイラ最適化バイナリをターゲットとしたNeurDPという新しい学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-03T06:45:54Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - The CoRa Tensor Compiler: Compilation for Ragged Tensors with Minimal
Padding [14.635810503599759]
CoRaはテンソルコンパイラで、ユーザはタグ付きテンソル演算子の効率的なコードを簡単に生成できる。
我々は,ラッジテンソル上での各種演算子およびトランスモデルのエンコーダ層上でのCoRaの評価を行った。
論文 参考訳(メタデータ) (2021-10-19T19:39:04Z) - Tensor Processing Primitives: A Programming Abstraction for Efficiency
and Portability in Deep Learning Workloads [86.62083829086393]
このプロセスプリミティブ(TPP、Processing Primitives)は、高い生産性を持つDeep Learning-Workloadの効率的でポータブルな実装を目指すプログラミング抽象化である。
TPPは、高次元テンソル上の複素作用素を構成するためにビルディングブロックとして使用できる2Dテンソル作用素(または仮想ISA)のコンパクトで汎用的な集合を定義する。
我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードによるアプローチの有効性を実証し,複数のプラットフォーム上での最先端実装よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:35:49Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - UNIT: Unifying Tensorized Instruction Compilation [11.193044425743981]
ハードウェアベンダは、Intel VNNI、Core、ARM-DOTなどの混合精度操作に対して、テンソル化命令を提供する。
これに対するコンパイルテクニックの欠如は、これらの命令の活用を困難にしている。
これらの命令のコンパイルを統一するコンパイラフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-21T06:22:58Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。