論文の概要: A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication
- arxiv url: http://arxiv.org/abs/2601.09114v1
- Date: Wed, 14 Jan 2026 03:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.244071
- Title: A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication
- Title(参考訳): 行列乗算のランタイム最適化に向けた機械学習アプローチ
- Authors: Yufan Xia, Marco De La Pierre, Amanda S. Barnard, Giuseppe Maria Junior Barca,
- Abstract要約: 本稿では,ADSALA (Architecture and Data-AwareStructure Linear Algebra) ソフトウェアライブラリを構築するための概念実証手法を提案する。
本手法では,与えられたGEMMタスクに対して最適なスレッド数を自動的に選択するために,オンザフライでの機械学習モデルを用いる。
2ソケットのIntel Cascade Lakeと2ソケットのAMD Zen 3をベースとした2つの異なるHPCノードアーキテクチャのテスト結果は、25%から40%のスピードアップを示した。
- 参考スコア(独自算出の注目度): 1.5223740593989443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The GEneral Matrix Multiplication (GEMM) is one of the essential algorithms in scientific computing. Single-thread GEMM implementations are well-optimised with techniques like blocking and autotuning. However, due to the complexity of modern multi-core shared memory systems, it is challenging to determine the number of threads that minimises the multi-thread GEMM runtime. We present a proof-of-concept approach to building an Architecture and Data-Structure Aware Linear Algebra (ADSALA) software library that uses machine learning to optimise the runtime performance of BLAS routines. More specifically, our method uses a machine learning model on-the-fly to automatically select the optimal number of threads for a given GEMM task based on the collected training data. Test results on two different HPC node architectures, one based on a two-socket Intel Cascade Lake and the other on a two-socket AMD Zen 3, revealed a 25 to 40 per cent speedup compared to traditional GEMM implementations in BLAS when using GEMM of memory usage within 100 MB.
- Abstract(参考訳): GEMM(GEneral Matrix Multiplication)は、科学計算において重要なアルゴリズムの一つである。
シングルスレッドのGEMM実装は、ブロッキングやオートチューニングといったテクニックでうまく最適化されている。
しかし、現代のマルチコア共有メモリシステムの複雑さのため、マルチスレッドGEMMランタイムを最小化するスレッド数を決定することは困難である。
本稿では、機械学習を用いてBLASルーチンの実行性能を最適化するアーキテクチャとデータ構造認識線形代数(ADSALA)ソフトウェアライブラリを構築するための概念実証手法を提案する。
具体的には,機械学習モデルを用いて,収集したトレーニングデータに基づいて,与えられたGEMMタスクに対して最適なスレッド数を自動的に選択する。
2ソケットのIntel Cascade Lakeと2ソケットのAMD Zen 3をベースとした2つの異なるHPCノードアーキテクチャのテスト結果は、100MB以内のメモリ使用率GEMMを使用する場合のBLASの従来のGEMM実装と比較して25~40%のスピードアップを示した。
関連論文リスト
- Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - A parallel evolutionary algorithm to optimize dynamic memory managers in embedded systems [4.651702738999686]
組込みシステムにおけるDMM最適化のための新しい並列進化アルゴリズムを提案する。
我々のフレームワークは、他の最先端のアプローチと比較して86.40倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2024-06-28T15:47:25Z) - Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems [0.0]
我々は、機械学習を用いてすべてのBLASレベル3操作のランタイムを最適化するアーキテクチャおよびデータ構造対応線形代数ライブラリの拡張について述べる。
我々は,MKLとBLISをベースラインBLAS実装として,IntelとAMDプロセッサの2つのHPCプラットフォーム上でテストを行った。
最大スレッド数に比べて,すべての操作に対して1.5から3.0の高速化を実現しています。
論文 参考訳(メタデータ) (2024-06-28T03:07:53Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。
この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。
これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文 参考訳(メタデータ) (2023-10-08T16:26:18Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。