論文の概要: Cortex: A Compiler for Recursive Deep Learning Models
- arxiv url: http://arxiv.org/abs/2011.01383v2
- Date: Fri, 5 Mar 2021 16:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:07:14.634316
- Title: Cortex: A Compiler for Recursive Deep Learning Models
- Title(参考訳): cortex: 再帰的ディープラーニングモデルのためのコンパイラ
- Authors: Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry
- Abstract要約: ディープラーニングモデルのための高効率コードを生成するコンパイラベースのアプローチであるCortexを提案する。
当社のコンパイラアプローチとベンダライブラリへの依存度が低いことで、エンドツーエンドの最適化が可能になりました。
- 参考スコア(独自算出の注目度): 12.307249556836375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing deep learning models is generally performed in two steps: (i)
high-level graph optimizations such as kernel fusion and (ii) low level kernel
optimizations such as those found in vendor libraries. This approach often
leaves significant performance on the table, especially for the case of
recursive deep learning models. In this paper, we present Cortex, a
compiler-based approach to generate highly-efficient code for recursive models
for low latency inference. Our compiler approach and low reliance on vendor
libraries enables us to perform end-to-end optimizations, leading to up to 14X
lower inference latencies over past work, across different backends.
- Abstract(参考訳): ディープラーニングモデルの最適化は、一般的に2つのステップで実行される。
(i)カーネル融合や高水準グラフ最適化
(ii)ベンダーライブラリに見られるような低レベルのカーネル最適化。
このアプローチは、特に再帰的なディープラーニングモデルの場合、大きなパフォーマンスを表に残すことが多い。
本稿では,低レイテンシ推論のための再帰モデルのための高効率コードを生成するコンパイラベースの手法であるcortexを提案する。
コンパイラのアプローチとベンダライブラリへの依存度が低いことで、エンドツーエンドの最適化が可能になり、さまざまなバックエンド間で、過去の作業で最大14倍の推論遅延が発生します。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Scalable Nested Optimization for Deep Learning [1.6317061277457001]
そこでは、パラメータのサブセットがそれぞれの内部にネストされた異なる目的に対して更新される2レベルまたはネストされた最適化があります。
この論文では、ディープラーニングのセットアップにスケールするネスト最適化のためのツールを構築します。
論文 参考訳(メタデータ) (2024-07-01T17:59:41Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - ALT: Breaking the Wall between Graph and Operator Level Optimizations
for Deep Learning Compilation [38.8918502461244]
ALTはディープモデルのためのグラフと演算子レベルの共同最適化を行うコンパイラである。
JOGは、単一の演算子の性能とエンドツーエンドの推論性能の両方の観点から、最先端のコンパイラ(例えばAnsor)よりも大幅に優れている。
論文 参考訳(メタデータ) (2022-10-22T11:09:36Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。