論文の概要: LoopTune: Optimizing Tensor Computations with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.01825v1
- Date: Mon, 4 Sep 2023 21:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:14:37.092858
- Title: LoopTune: Optimizing Tensor Computations with Reinforcement Learning
- Title(参考訳): LoopTune: 強化学習によるテンソル計算の最適化
- Authors: Dejan Grubisic, Bram Wasti, Chris Cummins, John Mellor-Crummey,
Aleksandar Zlateski
- Abstract要約: LoopTuneは、CPUのディープラーニングモデルにおけるテンソル計算を最適化するコンパイラである。
グラフベースの新しい表現とアクション空間により、LoopTuneはLoopNestを3.2倍高速化し、TVMより桁違いに高速なコードを生成し、MetaScheduleより2.8倍速く、AutoTVMより1.08倍高速なコードを生成する。
- 参考スコア(独自算出の注目度): 43.82827359317833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced compiler technology is crucial for enabling machine learning
applications to run on novel hardware, but traditional compilers fail to
deliver performance, popular auto-tuners have long search times and
expert-optimized libraries introduce unsustainable costs. To address this, we
developed LoopTune, a deep reinforcement learning compiler that optimizes
tensor computations in deep learning models for the CPU. LoopTune optimizes
tensor traversal order while using the ultra-fast lightweight code generator
LoopNest to perform hardware-specific optimizations. With a novel graph-based
representation and action space, LoopTune speeds up LoopNest by 3.2x,
generating an order of magnitude faster code than TVM, 2.8x faster than
MetaSchedule, and 1.08x faster than AutoTVM, consistently performing at the
level of the hand-tuned library Numpy. Moreover, LoopTune tunes code in order
of seconds.
- Abstract(参考訳): 高度なコンパイラ技術は、機械学習アプリケーションが新しいハードウェア上で実行できるようにするのに不可欠であるが、従来のコンパイラはパフォーマンスを提供できず、人気のあるオートチューニングは長い検索時間を持ち、エキスパート最適化ライブラリは持続不可能なコストをもたらす。
そこで我々は,CPUの深層学習モデルにおけるテンソル計算を最適化する深層学習コンパイラであるLoopTuneを開発した。
looptuneは、超高速軽量コードジェネレータloopnestを使用してハードウェア固有の最適化を実行しながら、テンソルトラバース順序を最適化する。
新しいグラフベースの表現とアクション空間により、looptuneはloopnestを3.2倍スピードアップし、tvmより2.8倍速く、metascheduleより2.8倍速く、autotvmより1.08倍高速で、ハンドチューニングされたライブラリnumpyのレベルで一貫して実行します。
さらに、LoopTuneは数秒でコードをチューニングする。
関連論文リスト
- COGNAC: Circuit Optimization via Gradients and Noise-Aware Compilation [0.29998889086656577]
我々は、量子回路をコンパイルするための新しい戦略であるCOGNACを提案する。
ゲートを絡み合う時間帯に通知される単純なノイズモデルを用いる。
我々は、多数の明示的な消去書き直し規則を必要とせず、回路のゲート数を削減した。
論文 参考訳(メタデータ) (2023-11-05T20:59:27Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - LoopStack: a Lightweight Tensor Algebra Compiler Stack [61.04098601022665]
LoopStackはテンソル操作のためのドメイン固有のコンパイラスタックである。
最先端の機械学習フレームワークのパフォーマンスにマッチし、頻繁なマシンコードを生成する。
メモリフットプリントは非常に小さく、バイナリサイズは245KBで、30K行未満の効率的なコードによって、モバイルや組み込みデバイスでの使用に適している。
論文 参考訳(メタデータ) (2022-05-02T01:57:58Z) - Learning to Make Compiler Optimizations More Effective [11.125012960514471]
looplearnerは、ループを書く方法が効率的なコンパイルコードにつながると予測する。
各種性能関連ベンチマークから1,895ループのLoopLearnerを評価した。
論文 参考訳(メタデータ) (2021-02-24T10:42:56Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。