論文の概要: From Loop Nests to Silicon: Mapping AI Workloads onto AMD NPUs with MLIR-AIR
- arxiv url: http://arxiv.org/abs/2510.14871v1
- Date: Thu, 16 Oct 2025 16:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.955026
- Title: From Loop Nests to Silicon: Mapping AI Workloads onto AMD NPUs with MLIR-AIR
- Title(参考訳): Loop NestsからSiiliconへ:AIワークロードをMLIR-AIRでAMD NPUにマッピング
- Authors: Erwei Wang, Samuel Bayliss, Andra Bisca, Zachary Blair, Sangeeta Chowdhary, Kristof Denolf, Jeff Fifield, Brandon Freiberger, Erika Hunhoff, Phil James-Roxby, Jack Lo, Joseph Melber, Stephen Neuendorffer, Eddie Richter, Andre Rosti, Javier Setoain, Gagandeep Singh, Endri Taka, Pranathi Vasireddy, Zhewen Yu, Niansong Zhang, Jinming Zhuang,
- Abstract要約: 汎用コンパイラは並列性、局所性、同期性を抽象化し、現代の空間アーキテクチャにおけるそれらの有効性を制限する。
MLIR上に構築された新しいオープンソースのコンパイラスタックであるMLIR-AIRを紹介する。
LLaMA2モデルの行列乗算とマルチヘッドアテンションブロックの2つのケーススタディを通してMLIR-AIRの機能を示す。
- 参考スコア(独自算出の注目度): 6.2957456904504525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose compilers abstract away parallelism, locality, and synchronization, limiting their effectiveness on modern spatial architectures. As modern computing architectures increasingly rely on fine-grained control over data movement, execution order, and compute placement for performance, compiler infrastructure must provide explicit mechanisms for orchestrating compute and data to fully exploit such architectures. We introduce MLIR-AIR, a novel, open-source compiler stack built on MLIR that bridges the semantic gap between high-level workloads and fine-grained spatial architectures such as AMD's NPUs. MLIR-AIR defines the AIR dialect, which provides structured representations for asynchronous and hierarchical operations across compute and memory resources. AIR primitives allow the compiler to orchestrate spatial scheduling, distribute computation across hardware regions, and overlap communication with computation without relying on ad hoc runtime coordination or manual scheduling. We demonstrate MLIR-AIR's capabilities through two case studies: matrix multiplication and the multi-head attention block from the LLaMA 2 model. For matrix multiplication, MLIR-AIR achieves up to 78.7% compute efficiency and generates implementations with performance almost identical to state-of-the-art, hand-optimized matrix multiplication written using the lower-level, close-to-metal MLIR-AIE framework. For multi-head attention, we demonstrate that the AIR interface supports fused implementations using approximately 150 lines of code, enabling tractable expression of complex workloads with efficient mapping to spatial hardware. MLIR-AIR transforms high-level structured control flow into spatial programs that efficiently utilize the compute fabric and memory hierarchy of an NPU, leveraging asynchronous execution, tiling, and communication overlap through compiler-managed scheduling.
- Abstract(参考訳): 汎用コンパイラは並列性、局所性、同期性を抽象化し、現代の空間アーキテクチャにおけるそれらの有効性を制限する。
現代のコンピューティングアーキテクチャは、データ移動、実行順序、パフォーマンスの計算配置のきめ細かい制御にますます依存しているため、コンパイラインフラストラクチャは、そのようなアーキテクチャを完全に活用するために、計算とデータをオーケストレーションするための明確なメカニズムを提供する必要がある。
MLIR-AIRは,高レベルのワークロードとAMDのNPUのようなきめ細かい空間アーキテクチャとのセマンティックギャップを埋める,MLIR上に構築された,新しいオープンソースコンパイラスタックである。
MLIR-AIRは、計算とメモリリソースをまたいだ非同期および階層的な操作のための構造化された表現を提供するAIR方言を定義する。
AIRプリミティブは、コンパイラが空間スケジューリングをオーケストレーションし、ハードウェア領域に分散し、アドホックなランタイム調整や手動のスケジューリングに頼ることなく、計算との重複通信を可能にする。
LLaMA2モデルの行列乗算とマルチヘッドアテンションブロックの2つのケーススタディを通してMLIR-AIRの機能を示す。
行列乗算では、MLIR-AIRは78.7%の計算効率を達成し、低レベルに近いMLIR-AIEフレームワークを用いて記述された最先端の手動最適化行列乗算とほぼ同じ性能を持つ実装を生成する。
多面的な注意を払って、約150行のコードを使用してAIRインターフェースが融合実装をサポートし、空間ハードウェアへの効率的なマッピングによる複雑なワークロードの抽出可能な表現を可能にすることを実証する。
MLIR-AIRは、高レベルの構造化制御フローを空間プログラムに変換し、NPUの計算ファブリックとメモリ階層を効率的に利用し、非同期実行、タイリング、通信オーバラップを活用する。
関連論文リスト
- xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting [0.0]
textbfCoupled Convolutional LSTM (CTM) を提案する。
CTMは、占有フローのメトリクスに関する最先端のパフォーマンスを達成し、この提出の時点で、2024年のOccupancy and Flow Prediction Challengeのリーダーボード上のすべてのメトリクス(テキスト)にランク付けされている。
論文 参考訳(メタデータ) (2025-06-06T14:38:55Z) - Splitwiser: Efficient LM inference with constrained resources [0.29260385019352086]
Splitwiserは、LLM推論要求の2つのフェーズを同じGPUに分割する方法論である。
デバイス間でデータを転送する必要をなくすことで、Splitwiserはネットワーク関連のオーバーヘッドを最小限にすることを目指している。
本稿では,Huggingface と vLLM という,広く使用されている2つの独立した LLM アーキテクチャ上でのマルチプロセッシング設計を実装した。
論文 参考訳(メタデータ) (2025-04-21T00:21:08Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory
Architectures [0.1747623282473278]
CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。
CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2024-01-15T13:35:21Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。