論文の概要: Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler
- arxiv url: http://arxiv.org/abs/2602.20204v1
- Date: Sun, 22 Feb 2026 19:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.463476
- Title: Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler
- Title(参考訳): MLIRベースのAIカーネルコンパイラにおけるレイテンシハイディングと並列性の解析
- Authors: Javed Absar, Samarth Narang, Muthu Baskaran,
- Abstract要約: エッジデバイスのAIカーネルコンパイルは、並列性を悪用し、メモリレイテンシを隠蔽するコンパイラの能力に依存する。
本稿では,MLIRベースのコンパイルパイプラインにおける3つのコンパイラ制御機構のベンチマーク手法とそれに対応する結果について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI kernel compilation for edge devices depends on the compiler's ability to exploit parallelism and hide memory latency in the presence of hierarchical memory and explicit data movement. This paper reports a benchmark methodology and corresponding results for three compiler-controlled mechanisms in an MLIR-based compilation pipeline: vectorization (Vec), multi-threading (MT) across hardware contexts, and double buffering (DB) using ping--pong scratchpad buffers to overlap DMA transfers with compute. Using Triton/Inductor-generated kernels, we present an ablation ladder that separates the contribution of Vec, MT, and DB, and we quantify how MT speedup scales with problem size using GELU as a representative activation kernel. The results show that vectorization provides the primary gain for bandwidth-sensitive kernels, MT delivers substantial improvements once scheduling overhead is amortized, and DB provides additional benefit when transfers and compute can be overlapped (i.e., outside the extremes of purely memory-bound or purely compute-bound behavior).
- Abstract(参考訳): エッジデバイスのAIカーネルコンパイルは、並列性を利用して階層メモリと明示的なデータ移動の存在下でメモリ遅延を隠すコンパイラの能力に依存する。
本稿では、MLIRベースのコンパイルパイプラインにおいて、ベクトル化(Vec)、ハードウェアコンテキスト間のマルチスレッディング(MT)、ピンポンスクラッチパッドバッファを用いたダブルバッファリング(DB)という3つのコンパイラ制御機構のベンチマーク手法とそれに対応する結果について報告する。
本稿では, トリトン/インダクタ生成カーネルを用いて, Vec, MT, DBのコントリビューションを分離するアブレーションはしごを提案する。
その結果、ベクトル化は帯域幅に敏感なカーネルに主要な利益をもたらし、MTはスケジュールのオーバーヘッドが減らされると大幅な改善をもたらし、DBは転送と計算が重なり合う場合(純粋にメモリバウンドまたは純粋に計算バウンドな振る舞いの極端外)にさらなる利益をもたらすことを示した。
関連論文リスト
- An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。
フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。
我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文 参考訳(メタデータ) (2025-12-11T20:53:35Z) - Hardware Software Optimizations for Fast Model Recovery on Reconfigurable Architectures [4.058950730052848]
本稿では,FPGAを高速化したMRフレームワークであるMERINDAについて述べる。
一般的なMRワークロードでは、MERINDAはFPGAベースのLCCベースラインよりも6.3倍少ないサイクルを提供する。
論文 参考訳(メタデータ) (2025-12-05T19:38:34Z) - AutoSAGE: Input-Aware CUDA Scheduling for Sparse GNN Aggregation (SpMM/SDDMM) and CSR Attention [52.20940151628735]
AutoSAGEは入力ごとにタイリングとマッピングを選択するインプット対応スケジューラである。
Reddit OGBN-Productsでは、カーネルレベルの最大4.7倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-11-17T18:25:51Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Pipeline Gradient-based Model Training on Analog In-memory Accelerators [27.7426132507863]
インメモリAIMCアクセラレータは、エネルギー効率のよい方法で大規模なディープニューラルモデル(DNN)のトレーニングを加速することができる。
我々は、デジタルドメインのパイプラインにインスパイアされたAIMCアクセラレーターに対して、同期および非同期パイプライン並列性を提案する。
本稿では、サンプリングとクロックサイクルの複雑さの観点から、同期パイプラインと非同期パイプラインの両方に理論的収束を保証する。
論文 参考訳(メタデータ) (2024-10-19T16:58:34Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Understanding Cache Boundness of ML Operators on ARM Processors [0.0]
これは、組み込みARMプロセッサの基本ハードウェア限界と比較して、TVMで生成された高密度および畳み込み演算子に関する最初の詳細な分析である。
単一精度の一般行列乗算(GEMM)と畳み込みはL1-cache-readバンド幅で結合される。
8ビットおよびビットシリアル量子化作用素の探索は、量子化が関連するスピードアップを達成するために使用できることを示している。
論文 参考訳(メタデータ) (2021-02-01T16:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。