論文の概要: LP-GEMM: Integrating Layout Propagation into GEMM Operations
- arxiv url: http://arxiv.org/abs/2604.04599v1
- Date: Mon, 06 Apr 2026 11:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.177899
- Title: LP-GEMM: Integrating Layout Propagation into GEMM Operations
- Title(参考訳): LP-GEMM:GEMM操作へのレイアウト伝搬の統合
- Authors: César Guedes Carneiro, Lucas Alvarenga, Guido Araujo, Sandro Rigo,
- Abstract要約: 本稿では,逐次GEMM操作間のパッキング・パブリッシングを可能にするGEMMカーネルの分解であるLP-GEMMを紹介する。
ベンダー最適化ライブラリと比較して,Intel x86上でのOpenBLAの平均速度は2.25倍である。
- 参考スコア(独自算出の注目度): 0.20388938295521575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Scientific Computing and modern Machine Learning (ML) workloads, sequences of dependent General Matrix Multiplications (GEMMs) often dominate execution time. While state-of-the-art BLAS libraries aggressively optimize individual GEMM calls, they remain constrained by the BLAS API, which requires each call to independently pack input matrices and restore outputs to a canonical memory layout. In sequential GEMMs, these constraints cause redundant packing and unpacking, wasting valuable computational resources. This paper introduces LP-GEMM, a decomposition of the GEMM kernel that enables packing-layout propagation across sequential GEMM operations. This approach eliminates unnecessary data repacking while preserving full BLAS semantic correctness at the boundaries. We evaluate LP-GEMM on x86 (AVX-512) and RISC-V (RVV 1.0) architectures across MLP-like and Attention-like workloads. Our results show average speedups of 2.25x over OpenBLAS on Intel x86 for sequential GEMMs and competitive gains relative to vendor-optimized libraries such as Intel MKL. We demonstrate the practicality of the approach beyond microbenchmarks by implementing a standalone C++ version of the Llama-3.2 inference path using exclusively BLAS-level GEMM calls. These results confirm that leveraging data layout propagation between operations can significantly boost performance.
- Abstract(参考訳): 科学コンピューティングと現代の機械学習(ML)のワークロードでは、依存する汎用行列乗法(GEMM)のシーケンスが実行時間を支配していることが多い。
最先端のBLASライブラリは個々のGEMMコールを積極的に最適化するが、BLAS APIによって制約される。
シーケンシャルなGEMMでは、これらの制約は冗長なパッキングとアンパックを引き起こし、貴重な計算資源を浪費する。
本稿では,逐次GEMM操作間のパッキング・レイアウト伝搬を可能にするGEMMカーネルの分解であるLP-GEMMを紹介する。
このアプローチでは、バウンダリで完全なBLASセマンティックな正確性を保ちながら、不要なデータ再パッケージを排除する。
我々は、x86(AVX-512)およびRISC-V(RVV 1.0)アーキテクチャ上のLP-GEMMを、MLPやAttentionのようなワークロードで評価する。
本結果は,Intel MKL などのベンダ最適化ライブラリと比較して,連続的な GEMM と競合的なゲインに対して,Intel x86 上の OpenBLAS の2.25倍のスピードアップを示した。
BLASレベルのGEMMコールのみを使用して,Llama-3.2推論パスのスタンドアロンC++バージョンを実装することで,マイクロベンチマーク以外のアプローチの実践性を実証する。
これらの結果は、操作間のデータレイアウトの伝搬を活用することで、性能が大幅に向上することを確認する。
関連論文リスト
- A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication [1.5223740593989443]
本稿では,ADSALA (Architecture and Data-AwareStructure Linear Algebra) ソフトウェアライブラリを構築するための概念実証手法を提案する。
本手法では,与えられたGEMMタスクに対して最適なスレッド数を自動的に選択するために,オンザフライでの機械学習モデルを用いる。
2ソケットのIntel Cascade Lakeと2ソケットのAMD Zen 3をベースとした2つの異なるHPCノードアーキテクチャのテスト結果は、25%から40%のスピードアップを示した。
論文 参考訳(メタデータ) (2026-01-14T03:28:54Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model [75.750699619993]
本稿では,高密度マスク予測とオープンカテゴリ生成が可能な,革命的オープンセット高密度セグメンテーションLMMであるROSEを提案する。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
論文 参考訳(メタデータ) (2024-11-29T07:00:18Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads [1.4107658666233678]
我々はHugging FaceとTorchvisionで広く採用されている17のMLモデルのパフォーマンス解析を行った。
非GEMMパフォーマンスボトルネックは平均して11.3%から73.6%である。
我々は、モデルとデプロイメントソフトウェアごとに、GEMM以外の最も支配的な演算子をデミストする。
論文 参考訳(メタデータ) (2024-04-17T22:44:22Z) - Automatic Generators for a Family of Matrix Multiplication Routines with
Apache TVM [0.20971479389679337]
我々は、GotoBLAS2、BLIS、OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を生成する。
我々はまた、Apache TVMフレームワークを活用して、GEMM用のプロセッサ固有のマイクロカーネルを完全に引き出す。
論文 参考訳(メタデータ) (2023-10-31T10:36:26Z) - SMASH: Sparse Matrix Atomic Scratchpad Hashing [0.0]
本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。
我々は原子インストラクションを利用して中間部分積を生成時にマージする。
我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2021-05-29T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。