論文の概要: PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks
- arxiv url: http://arxiv.org/abs/2603.06731v2
- Date: Tue, 10 Mar 2026 17:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.701515
- Title: PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks
- Title(参考訳): PolyBlocks: AIチップとプログラミングフレームワークのためのコンパイラインフラストラクチャ
- Authors: Uday Bondhugula, Akshay Baviskar, Navdeep Katel, Vimal Patel, Anoop JS, Arnab Dutta,
- Abstract要約: PolyBlocksは、AIプログラミングフレームワークとAIチップのための、モジュール的で再利用可能なMLIRベースのコンパイラインフラストラクチャである。
PolyBlocksの設計とアーキテクチャにより、高レベルなフレームワークから低レベルなターゲット特化言語への完全な自動コード生成が可能になる。
- 参考スコア(独自算出の注目度): 1.7856410179559388
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the design and implementation of PolyBlocks, a modular and reusable MLIR-based compiler infrastructure for AI programming frameworks and AI chips. PolyBlocks is based on pass pipelines that compose transformations on loop nests and SSA, primarily relying on lightweight affine access analysis; the transformations are stitched together in specialized ways to realize high-performance code automatically by the use of analytical cost models and heuristics. The optimizations in these passes include multi-level tiling, fusion, on-chip scratchpad usage, mapping matmuls and convolutions to matrix units, fusing the attention layer, and several other transformations for parallelism and locality. They have been developed in a way that makes it easy to build PolyBlocks-based compilers to target new chips, reusing much of the infrastructure. PolyBlocks' design and architecture enable fully automatic code generation from high-level frameworks to low-level target-specific intrinsics. Experimental results from evaluating PolyBlocks-powered just-in-time compilation for PyTorch and JAX targeting NVIDIA GPUs show that it is able to match or outperform Torch Inductor and XLA in several cases, although the latter rely on a combination of vendor libraries and code generation. For individual operators like matmuls and convolutions, PolyBlocks-generated code is competitive with the best vendor-tuned libraries or hand-written kernels.
- Abstract(参考訳): 本稿では,AIプログラミングフレームワークとAIチップのための,モジュール型かつ再利用可能なMLIRベースのコンパイラインフラストラクチャであるPolyBlocksの設計と実装について述べる。
PolyBlocksは、ループネスト上の変換を構成するパスパイプラインとSSAに基づいており、主に軽量アフィンアクセス分析に依存している。
これらのパスの最適化には、マルチレベルタイリング、融合、オンチップスクラッチパッドの使用、マトゥルと畳み込みを行列単位にマッピングすること、注意層を融合すること、並列性と局所性のためのいくつかの変換が含まれる。
それらは、PolyBlocksベースのコンパイラを構築して、新しいチップをターゲットにし、インフラストラクチャの多くを再利用できるようにする方法で開発されている。
PolyBlocksの設計とアーキテクチャにより、高レベルなフレームワークから低レベルなターゲット特化言語への完全な自動コード生成が可能になる。
NVIDIA GPUをターゲットとしたPyTorchとJAXに対するPolyBlocksによるジャスト・イン・タイムコンパイルの評価による実験結果から、ベンダーライブラリとコード生成の組み合わせに依存するものの、TorchインダクタとXLAの整合性や性能がいくつかのケースで向上していることが示された。
matmulsやconvolutionsのような個々のオペレータの場合、PolyBlocksの生成したコードは、最高のベンダーチューニングライブラリや手書きのカーネルと競合する。
関連論文リスト
- PEAK: A Performance Engineering AI-Assistant for GPU Kernels Powered by Natural Language Transformations [0.8699280339422538]
我々は、自然言語変換を利用したカーネルのためのパフォーマンスエンジニアリングAIアシストであるPEAKを紹介する。
実装が利用可能な場合、ベンダーライブラリと競合し、(ライブラリなしで)HLSLについては、ドキュメント化されたFLOPSです。
論文 参考訳(メタデータ) (2025-12-22T04:15:24Z) - Library Liberation: Competitive Performance Matmul Through Compiler-composed Nanokernels [37.00431889602245]
本稿では,スケーラブルで高性能なマイクロカーネルを自動生成するコンパイル方式を提案する。
本手法は,ベクトルおよびタイルベースのCPU命令をサポートするMLIRベースのコンパイラで実装する。
実験の結果、生成したナノカーネルは生産品質が高く、最先端のマイクロカーネルライブラリと競合することがわかった。
論文 参考訳(メタデータ) (2025-11-14T14:32:28Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Scaling Tractable Probabilistic Circuits: A Systems Perspective [53.76194929291088]
PyJuiceは、いくつかの点で先行技術を改善するPCの一般的な実装設計である。
大規模PCのトレーニングでは、既存のシステムよりも1~2桁高速である。
PyJuiceは2~5倍のメモリを消費するので、より大きなモデルをトレーニングすることができます。
論文 参考訳(メタデータ) (2024-06-02T14:57:00Z) - LOOPer: A Learned Automatic Code Optimizer For Polyhedral Compilers [1.7529897611426233]
ディープラーニングベースのコストモデルを用いた,最初の多面体自動スケジューリングシステムである LOOPer を紹介する。
我々は,LOOPerが最先端技術に対して競争速度を上げることを示す。
論文 参考訳(メタデータ) (2024-03-18T07:22:31Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。