Fugu-MT 論文翻訳(概要): Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor Programs

論文の概要: Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor Programs

arxiv url: http://arxiv.org/abs/2210.09603v1
Date: Tue, 18 Oct 2022 05:32:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-19 14:04:17.958776
Title: Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor Programs
Title（参考訳）: Hidet: ディープラーニングテンソルプログラムのためのタスクマッピングプログラミングパラダイム
Authors: Yaoyao Ding, Cody Hao Yu, Bojian Zheng, Yizhi Liu, Yida Wang, Gennady Pekhimenko
Abstract要約: 本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
参考スコア（独自算出の注目度）: 11.338285393619042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As deep learning models nowadays are widely adopted by both cloud services and edge devices, the latency of deep learning model inferences becomes crucial to provide efficient model serving. However, it is challenging to develop efficient tensor programs for deep learning operators due to the high complexity of modern accelerators (e.g., NVIDIA GPUs and Google TPUs) and the rapidly growing number of operators. Deep learning compilers, such as Apache TVM, adopt declarative scheduling primitives to lower the bar of developing tensor programs. However, we show that this approach is insufficient to cover state-of-the-art tensor program optimizations (e.g., double buffering). In this paper, we propose to embed the scheduling process into tensor programs and use dedicated mappings, called task mappings, to define the computation assignment and ordering directly in the tensor programs. This new approach greatly enriches the expressible optimizations by allowing developers to manipulate tensor programs at a much finer granularity (e.g., allowing program statement-level optimizations). We call the proposed method the task-mapping-oriented programming paradigm. With the proposed paradigm, we implement a deep learning compiler - Hidet. Extensive experiments on modern convolution and transformer models show that Hidet outperforms state-of-the-art DNN inference framework, ONNX Runtime, and compiler, TVM equipped with scheduler AutoTVM and Ansor, by up to 1.48x (1.22x on average) with enriched optimizations. It also reduces the tuning time by 20x and 11x compared with AutoTVM and Ansor, respectively.
Abstract（参考訳）: 近年,ディープラーニングモデルがクラウドサービスとエッジデバイスの両方で広く採用されているため,ディープラーニングモデル推論のレイテンシは,効率的なモデル提供を実現する上で重要である。しかし、現代のアクセラレーター(例えばnvidia gpuやgoogle tpus)の複雑さと急速に増加するオペレータの数のために、ディープラーニングオペレーター向けの効率的なテンソルプログラムを開発することは困難である。 Apache TVMのようなディープラーニングコンパイラは、宣言型スケジューリングプリミティブを採用して、テンソルプログラムの開発バーを低くする。しかし、この手法は、最先端のテンソルプログラム最適化(ダブルバッファリングなど)をカバーするには不十分であることを示す。本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて,テンソルプログラム内での計算代入と順序付けを定義することを提案する。この新しいアプローチは、開発者がより細かい粒度(例えばプログラム文レベルの最適化)でテンソルプログラムを操作できるようにすることにより、表現可能な最適化を大幅に強化する。提案手法をタスクマッピング指向プログラミングパラダイムと呼ぶ。提案するパラダイムでは,deep learning compiler - hidetを実装した。最新の畳み込みモデルとトランスフォーマーモデルに関する大規模な実験により、Hitletは最先端のDNN推論フレームワーク、ONNX Runtime、コンパイラ、TVMとスケジューラのAutoTVMとAnsorを搭載したTVMを、豊富な最適化で最大1.48倍(平均1.22倍)上回った。また、チューニング時間をautotvmとansorと比較して20倍と11倍に短縮する。

関連論文リスト

QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach [25.521351239401287]
不均一深層学習システム (DLS) は産業用データセンターに広く導入されている。そこで我々は,DLSをまたいでプログラムを自動的に翻訳する新しいトランスコンパイラ,すなわちQiMeng-Xpilerを提案する。その結果、DLSのプログラミングは、レガシプログラムをトランスコンパイルすることで最大9倍改善される。
論文参考訳（メタデータ） (2025-05-04T15:14:27Z)
LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文参考訳（メタデータ） (2024-12-17T01:12:35Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers [6.194917248699324]
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。実験によると、FTunerはベンダーのライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2024-07-31T08:05:33Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler for Neural Networks [51.71682428015139]
効率的なテンソルプログラム探索のための強化学習に基づく自動スケジューリングシステムであるHARLを提案する。 HarLは、最先端のオートスケジューラと比較して、テンソル演算子の性能を22%改善し、探索速度を4.3倍改善する。また、エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。
論文参考訳（メタデータ） (2022-11-21T04:15:27Z)
TensorIR: An Abstraction for Automatic Tensorized Program Optimization [22.812702519665617]
本稿では,テンソル計算プリミティブでプログラムを最適化するコンパイラIRを提案する。コンパイルの上にエンドツーエンドのフレームワークを構築し、与えられたテンソル計算プリミティブに対してディープラーニングモデルを自動的に最適化します。
論文参考訳（メタデータ） (2022-07-09T16:28:57Z)
A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文参考訳（メタデータ） (2020-08-03T17:24:52Z)
Ansor: Generating High-Performance Tensor Programs for Deep Learning [45.437816016043534]
ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークAnsorを提案する。 Ansorは、探索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。 Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
論文参考訳（メタデータ） (2020-06-11T19:40:09Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。