論文の概要: PolyTOPS: Reconfigurable and Flexible Polyhedral Scheduler
- arxiv url: http://arxiv.org/abs/2401.06665v1
- Date: Fri, 12 Jan 2024 16:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:57:46.496331
- Title: PolyTOPS: Reconfigurable and Flexible Polyhedral Scheduler
- Title(参考訳): PolyTOPS: 再構成可能でフレキシブルなPolyhedral Scheduler
- Authors: Gianpietro Consolaro, Zhen Zhang, Harenome Razanajato, Nelson Lossing,
Nassim Tchoulak, Adilla Susungi, Artur Cesar Araujo Alves, Renwei Zhang,
Denis Barthou, Corinne Ancourt, Cedric Bastoul
- Abstract要約: 本稿では,多面体スケジューラであるPolyTOPSを導入する。
PolyTOPSはIllとCLooGをコードジェネレータとして使用しており、MindSporeのディープラーニングコンパイラに統合されている。
- 参考スコア(独自算出の注目度): 1.6673953344957533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Polyhedral techniques have been widely used for automatic code optimization
in low-level compilers and higher-level processes. Loop optimization is central
to this technique, and several polyhedral schedulers like Feautrier, Pluto, isl
and Tensor Scheduler have been proposed, each of them targeting a different
architecture, parallelism model, or application scenario. The need for
scenario-specific optimization is growing due to the heterogeneity of
architectures. One of the most critical cases is represented by NPUs (Neural
Processing Units) used for AI, which may require loop optimization with
different objectives. Another factor to be considered is the framework or
compiler in which polyhedral optimization takes place. Different scenarios,
depending on the target architecture, compilation environment, and application
domain, may require different kinds of optimization to best exploit the
architecture feature set.
We introduce a new configurable polyhedral scheduler, PolyTOPS, that can be
adjusted to various scenarios with straightforward, high-level configurations.
This scheduler allows the creation of diverse scheduling strategies that can be
both scenario-specific (like state-of-the-art schedulers) and kernel-specific,
breaking the concept of a one-size-fits-all scheduler approach. PolyTOPS has
been used with isl and CLooG as code generators and has been integrated in
MindSpore AKG deep learning compiler. Experimental results in different
scenarios show good performance: a geomean speedup of 7.66x on MindSpore (for
the NPU Ascend architecture) hybrid custom operators over isl scheduling, a
geomean speedup up to 1.80x on PolyBench on different multicore architectures
over Pluto scheduling. Finally, some comparisons with different
state-of-the-art tools are presented in the PolyMage scenario.
- Abstract(参考訳): ポリヘドラル技術は、低レベルコンパイラや高レベルプロセスにおける自動コード最適化に広く用いられている。
ループ最適化はこの技術の中心であり、Feautrier、Pluto、Isl、Tensor Schedulerといった複数の多面体スケジューラが提案されている。
アーキテクチャの不均一性によってシナリオ固有の最適化の必要性が高まっている。
最も重要な事例の1つは、aiに使用されるnpu(neural processing unit)で表現され、異なる目的のループ最適化を必要とする可能性がある。
もう1つの考慮すべき要素は、多面的最適化が行われるフレームワークまたはコンパイラである。
ターゲットアーキテクチャ、コンパイル環境、アプリケーションドメインによって異なるシナリオは、アーキテクチャの機能セットを最大限活用するために異なる種類の最適化を必要とするかもしれません。
我々は,多面体スケジューラであるpolytopsを新たに導入した。
このスケジューラは、シナリオ固有のもの(最先端スケジューラのような)とカーネル固有のものの両方が可能な、多様なスケジューリング戦略の作成を可能にする。
PolyTOPSはIllとCLooGをコードジェネレータとして使用しており、MindSpore AKGディープラーニングコンパイラに統合されている。
異なるシナリオにおける実験結果は、優れた性能を示している: mindspore (npu ascend architecture) 上でのジオメアのスピードアップ 7.66x islスケジューリング上のハイブリッドカスタムオペレータ、冥王星スケジューリング上の異なるマルチコアアーキテクチャ上でのポリベンチ上でのジオメアのスピードアップ 1.80倍までである。
最後に、さまざまな最先端ツールとの比較をPolyMageのシナリオで示す。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - LOOPer: A Learned Automatic Code Optimizer For Polyhedral Compilers [1.7529897611426233]
ディープラーニングに基づくコストモデルを用いた,最初の多面体自動スケジューリングシステムである LOOPer を紹介する。
大規模なアフィン変換の探索をサポートし、多面体変換の複雑な配列を適用できる。
また、複数のループネストと長方形および非矩形反復領域を持つプログラムの最適化もサポートする。
論文 参考訳(メタデータ) (2024-03-18T07:22:31Z) - Machine Learning Optimized Orthogonal Basis Piecewise Polynomial Approximation [0.9208007322096533]
Piecewise Polynomials (PP) は、軌道計画のようないくつかの工学分野において、点の集合の形で与えられる位置プロファイルを近似するために用いられる。
論文 参考訳(メタデータ) (2024-03-13T14:34:34Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - Machine Learning-Driven Adaptive OpenMP For Portable Performance on
Heterogeneous Systems [1.885335997132172]
プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。
本稿では,機械学習による自律的適応のためのOpenMPの拡張を提案する。
私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。
論文 参考訳(メタデータ) (2023-03-15T18:37:18Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - A Reinforcement Learning Environment for Polyhedral Optimizations [68.8204255655161]
マルコフ決定過程(MDP)として多面体モデルにおける法的変換空間の形状に依存しない定式化を提案する。
変換を使う代わりに、定式化は可能なスケジュールの抽象空間に基づいている。
我々の総合的MDP定式化は、強化学習を用いて幅広いループで最適化ポリシーを学習することを可能にする。
論文 参考訳(メタデータ) (2021-04-28T12:41:52Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。