論文の概要: Operator Fusion in XLA: Analysis and Evaluation
- arxiv url: http://arxiv.org/abs/2301.13062v1
- Date: Mon, 30 Jan 2023 17:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:57:14.030919
- Title: Operator Fusion in XLA: Analysis and Evaluation
- Title(参考訳): XLAにおける演算子融合 : 解析と評価
- Authors: Daniel Snider, Ruofan Liang
- Abstract要約: XLAは最も一般的な機械学習(ML)コンパイラである。
XLAにおける核融合決定が実際どのように異なるかを示す。
最大10.56倍の高速化が可能なXLAカーネル融合戦略を実装した。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) compilers are an active area of research because they
offer the potential to automatically speedup tensor programs. Kernel fusion is
often cited as an important optimization performed by ML compilers. However,
there exists a knowledge gap about how XLA, the most common ML compiler,
applies this nuanced optimization, what kind of speedup it can afford, and what
low-level effects it has on hardware. Our paper aims to bridge this knowledge
gap by studying key compiler passes of XLA's source code. Our evaluation on a
reinforcement learning environment Cartpole shows how different fusion
decisions in XLA are made in practice. Furthermore, we implement several XLA
kernel fusion strategies that can achieve up to 10.56x speedup compared to our
baseline implementation.
- Abstract(参考訳): 機械学習(ml)コンパイラは、テンソルプログラムを自動的にスピードアップする能力を提供するため、活発な研究領域である。
カーネル融合はMLコンパイラが行う重要な最適化としてしばしば言及される。
しかしながら、最も一般的なMLコンパイラであるXLAが、この微妙な最適化をどのように適用するか、どのようなスピードアップにできるのか、ハードウェアにどのような低レベルの影響があるのか、といった知識ギャップがある。
本稿では,XLAのソースコードのキーコンパイラパスを研究することで,この知識ギャップを埋めることを目的とする。
強化学習環境におけるCartpoleの評価は,XLAにおける融合決定の実際的な違いを示している。
さらに,ベースライン実装と比較して最大10.56倍の高速化が可能なXLAカーネル融合戦略を実装した。
関連論文リスト
- StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Target-independent XLA optimization using Reinforcement Learning [6.442130495735239]
本稿では, 深層強化学習に基づく最適XLA HLOパスの探索を提案する。
また,探索性能の向上を図るため,深部RLアルゴリズムの改良も提案する。
全体として、我々の実験では、平均13.3%のオペレーションカウント削減効果が見られた。
論文 参考訳(メタデータ) (2023-08-28T07:23:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ML-driven Hardware Cost Model for MLIR [1.2987894327817158]
高レベルMLIRのための機械学習に基づくコストモデルを開発した。
MLIRをラ・NLPモデルのテキスト入力として考えることにより、現代のNLP研究からよく知られた技術を適用することができる。
これらのモデルにより,種々のハードウェア特性に対する誤差境界が低く,合理的に優れた推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T11:32:47Z) - Benchmarking the Linear Algebra Awareness of TensorFlow and PyTorch [1.1470070927586016]
我々は、TFとPyTの線形代数最適化能力を調べるためのベンチマークを開発する。
本研究では、TFおよびPyTにおける線形代数計算に焦点を当てる。
論文 参考訳(メタデータ) (2022-02-20T18:51:00Z) - Enabling Retargetable Optimizing Compilers for Quantum Accelerators via
a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。
ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。
私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5~10倍高速なコンパイル時間を実現しています。
論文 参考訳(メタデータ) (2021-09-01T17:29:47Z) - MLGO: a Machine Learning Guided Compiler Optimizations Framework [0.0]
この作業は、実際の設定で複雑なコンパイラパスで機械学習を初めて完全に統合した作業です。
インライン・フォー・サイズモデルのトレーニングには2つの異なるMLアルゴリズムを使用し、最大7%の削減を実現している。
同じモデルは、実世界のターゲットの多様性、そして数ヶ月のアクティブな開発の後、同じターゲットセットにうまく一般化します。
論文 参考訳(メタデータ) (2021-01-13T00:02:49Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。