論文の概要: Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs
- arxiv url: http://arxiv.org/abs/2210.09603v1
- Date: Tue, 18 Oct 2022 05:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:04:17.958776
- Title: Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs
- Title(参考訳): Hidet: ディープラーニングテンソルプログラムのためのタスクマッピングプログラミングパラダイム
- Authors: Yaoyao Ding, Cody Hao Yu, Bojian Zheng, Yizhi Liu, Yida Wang, Gennady
Pekhimenko
- Abstract要約: 本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
- 参考スコア(独自算出の注目度): 11.338285393619042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning models nowadays are widely adopted by both cloud services
and edge devices, the latency of deep learning model inferences becomes crucial
to provide efficient model serving. However, it is challenging to develop
efficient tensor programs for deep learning operators due to the high
complexity of modern accelerators (e.g., NVIDIA GPUs and Google TPUs) and the
rapidly growing number of operators. Deep learning compilers, such as Apache
TVM, adopt declarative scheduling primitives to lower the bar of developing
tensor programs. However, we show that this approach is insufficient to cover
state-of-the-art tensor program optimizations (e.g., double buffering). In this
paper, we propose to embed the scheduling process into tensor programs and use
dedicated mappings, called task mappings, to define the computation assignment
and ordering directly in the tensor programs. This new approach greatly
enriches the expressible optimizations by allowing developers to manipulate
tensor programs at a much finer granularity (e.g., allowing program
statement-level optimizations). We call the proposed method the
task-mapping-oriented programming paradigm. With the proposed paradigm, we
implement a deep learning compiler - Hidet. Extensive experiments on modern
convolution and transformer models show that Hidet outperforms state-of-the-art
DNN inference framework, ONNX Runtime, and compiler, TVM equipped with
scheduler AutoTVM and Ansor, by up to 1.48x (1.22x on average) with enriched
optimizations. It also reduces the tuning time by 20x and 11x compared with
AutoTVM and Ansor, respectively.
- Abstract(参考訳): 近年,ディープラーニングモデルがクラウドサービスとエッジデバイスの両方で広く採用されているため,ディープラーニングモデル推論のレイテンシは,効率的なモデル提供を実現する上で重要である。
しかし、現代のアクセラレーター(例えばnvidia gpuやgoogle tpus)の複雑さと急速に増加するオペレータの数のために、ディープラーニングオペレーター向けの効率的なテンソルプログラムを開発することは困難である。
Apache TVMのようなディープラーニングコンパイラは、宣言型スケジューリングプリミティブを採用して、テンソルプログラムの開発バーを低くする。
しかし、この手法は、最先端のテンソルプログラム最適化(ダブルバッファリングなど)をカバーするには不十分であることを示す。
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて,テンソルプログラム内での計算代入と順序付けを定義することを提案する。
この新しいアプローチは、開発者がより細かい粒度(例えばプログラム文レベルの最適化)でテンソルプログラムを操作できるようにすることにより、表現可能な最適化を大幅に強化する。
提案手法をタスクマッピング指向プログラミングパラダイムと呼ぶ。
提案するパラダイムでは,deep learning compiler - hidetを実装した。
最新の畳み込みモデルとトランスフォーマーモデルに関する大規模な実験により、Hitletは最先端のDNN推論フレームワーク、ONNX Runtime、コンパイラ、TVMとスケジューラのAutoTVMとAnsorを搭載したTVMを、豊富な最適化で最大1.48倍(平均1.22倍)上回った。
また、チューニング時間をautotvmとansorと比較して20倍と11倍に短縮する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers [6.194917248699324]
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。
実験によると、FTunerはベンダーのライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-07-31T08:05:33Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler
for Neural Networks [51.71682428015139]
効率的なテンソルプログラム探索のための強化学習に基づく自動スケジューリングシステムであるHARLを提案する。
HarLは、最先端のオートスケジューラと比較して、テンソル演算子の性能を22%改善し、探索速度を4.3倍改善する。
また、エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。
論文 参考訳(メタデータ) (2022-11-21T04:15:27Z) - TensorIR: An Abstraction for Automatic Tensorized Program Optimization [22.812702519665617]
本稿では,テンソル計算プリミティブでプログラムを最適化するコンパイラIRを提案する。
コンパイルの上にエンドツーエンドのフレームワークを構築し、与えられたテンソル計算プリミティブに対してディープラーニングモデルを自動的に最適化します。
論文 参考訳(メタデータ) (2022-07-09T16:28:57Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Ansor: Generating High-Performance Tensor Programs for Deep Learning [45.437816016043534]
ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークAnsorを提案する。
Ansorは、探索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。
Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
論文 参考訳(メタデータ) (2020-06-11T19:40:09Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。