論文の概要: Operator Fusion in XLA: Analysis and Evaluation
- arxiv url: http://arxiv.org/abs/2301.13062v1
- Date: Mon, 30 Jan 2023 17:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:57:14.030919
- Title: Operator Fusion in XLA: Analysis and Evaluation
- Title(参考訳): XLAにおける演算子融合 : 解析と評価
- Authors: Daniel Snider, Ruofan Liang
- Abstract要約: XLAは最も一般的な機械学習(ML)コンパイラである。
XLAにおける核融合決定が実際どのように異なるかを示す。
最大10.56倍の高速化が可能なXLAカーネル融合戦略を実装した。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) compilers are an active area of research because they
offer the potential to automatically speedup tensor programs. Kernel fusion is
often cited as an important optimization performed by ML compilers. However,
there exists a knowledge gap about how XLA, the most common ML compiler,
applies this nuanced optimization, what kind of speedup it can afford, and what
low-level effects it has on hardware. Our paper aims to bridge this knowledge
gap by studying key compiler passes of XLA's source code. Our evaluation on a
reinforcement learning environment Cartpole shows how different fusion
decisions in XLA are made in practice. Furthermore, we implement several XLA
kernel fusion strategies that can achieve up to 10.56x speedup compared to our
baseline implementation.
- Abstract(参考訳): 機械学習(ml)コンパイラは、テンソルプログラムを自動的にスピードアップする能力を提供するため、活発な研究領域である。
カーネル融合はMLコンパイラが行う重要な最適化としてしばしば言及される。
しかしながら、最も一般的なMLコンパイラであるXLAが、この微妙な最適化をどのように適用するか、どのようなスピードアップにできるのか、ハードウェアにどのような低レベルの影響があるのか、といった知識ギャップがある。
本稿では,XLAのソースコードのキーコンパイラパスを研究することで,この知識ギャップを埋めることを目的とする。
強化学習環境におけるCartpoleの評価は,XLAにおける融合決定の実際的な違いを示している。
さらに,ベースライン実装と比較して最大10.56倍の高速化が可能なXLAカーネル融合戦略を実装した。
関連論文リスト
- Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - LLM-Aided Compilation for Tensor Accelerators [6.709490736813537]
我々は,大規模言語モデル(LLM)を用いてハードウェアアクセラレーター用のコンパイラを構築する方法について論じる。
具体的には,GPT-4がGemminiアクセラレータへのコード変換において高いパスレートを達成する能力を示す。
また,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
論文 参考訳(メタデータ) (2024-08-06T19:10:25Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Target-independent XLA optimization using Reinforcement Learning [6.442130495735239]
本稿では, 深層強化学習に基づく最適XLA HLOパスの探索を提案する。
また,探索性能の向上を図るため,深部RLアルゴリズムの改良も提案する。
全体として、我々の実験では、平均13.3%のオペレーションカウント削減効果が見られた。
論文 参考訳(メタデータ) (2023-08-28T07:23:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Benchmarking the Linear Algebra Awareness of TensorFlow and PyTorch [1.1470070927586016]
我々は、TFとPyTの線形代数最適化能力を調べるためのベンチマークを開発する。
本研究では、TFおよびPyTにおける線形代数計算に焦点を当てる。
論文 参考訳(メタデータ) (2022-02-20T18:51:00Z) - MLGO: a Machine Learning Guided Compiler Optimizations Framework [0.0]
この作業は、実際の設定で複雑なコンパイラパスで機械学習を初めて完全に統合した作業です。
インライン・フォー・サイズモデルのトレーニングには2つの異なるMLアルゴリズムを使用し、最大7%の削減を実現している。
同じモデルは、実世界のターゲットの多様性、そして数ヶ月のアクティブな開発の後、同じターゲットセットにうまく一般化します。
論文 参考訳(メタデータ) (2021-01-13T00:02:49Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。