Fugu-MT 論文翻訳(概要): A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication

論文の概要: A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication

arxiv url: http://arxiv.org/abs/2601.09114v1
Date: Wed, 14 Jan 2026 03:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.244071
Title: A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication
Title（参考訳）: 行列乗算のランタイム最適化に向けた機械学習アプローチ
Authors: Yufan Xia, Marco De La Pierre, Amanda S. Barnard, Giuseppe Maria Junior Barca,
Abstract要約: 本稿では,ADSALA (Architecture and Data-AwareStructure Linear Algebra) ソフトウェアライブラリを構築するための概念実証手法を提案する。本手法では,与えられたGEMMタスクに対して最適なスレッド数を自動的に選択するために,オンザフライでの機械学習モデルを用いる。 2ソケットのIntel Cascade Lakeと2ソケットのAMD Zen 3をベースとした2つの異なるHPCノードアーキテクチャのテスト結果は、25%から40%のスピードアップを示した。
参考スコア（独自算出の注目度）: 1.5223740593989443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The GEneral Matrix Multiplication (GEMM) is one of the essential algorithms in scientific computing. Single-thread GEMM implementations are well-optimised with techniques like blocking and autotuning. However, due to the complexity of modern multi-core shared memory systems, it is challenging to determine the number of threads that minimises the multi-thread GEMM runtime. We present a proof-of-concept approach to building an Architecture and Data-Structure Aware Linear Algebra (ADSALA) software library that uses machine learning to optimise the runtime performance of BLAS routines. More specifically, our method uses a machine learning model on-the-fly to automatically select the optimal number of threads for a given GEMM task based on the collected training data. Test results on two different HPC node architectures, one based on a two-socket Intel Cascade Lake and the other on a two-socket AMD Zen 3, revealed a 25 to 40 per cent speedup compared to traditional GEMM implementations in BLAS when using GEMM of memory usage within 100 MB.
Abstract（参考訳）: GEMM(GEneral Matrix Multiplication)は、科学計算において重要なアルゴリズムの一つである。シングルスレッドのGEMM実装は、ブロッキングやオートチューニングといったテクニックでうまく最適化されている。しかし、現代のマルチコア共有メモリシステムの複雑さのため、マルチスレッドGEMMランタイムを最小化するスレッド数を決定することは困難である。本稿では、機械学習を用いてBLASルーチンの実行性能を最適化するアーキテクチャとデータ構造認識線形代数(ADSALA)ソフトウェアライブラリを構築するための概念実証手法を提案する。具体的には,機械学習モデルを用いて,収集したトレーニングデータに基づいて,与えられたGEMMタスクに対して最適なスレッド数を自動的に選択する。 2ソケットのIntel Cascade Lakeと2ソケットのAMD Zen 3をベースとした2つの異なるHPCノードアーキテクチャのテスト結果は、100MB以内のメモリ使用率GEMMを使用する場合のBLASの従来のGEMM実装と比較して25～40%のスピードアップを示した。

関連論文リスト

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。 GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文参考訳（メタデータ） (2024-12-24T02:27:44Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
A parallel evolutionary algorithm to optimize dynamic memory managers in embedded systems [4.651702738999686]
組込みシステムにおけるDMM最適化のための新しい並列進化アルゴリズムを提案する。我々のフレームワークは、他の最先端のアプローチと比較して86.40倍のスピードアップを実現しています。
論文参考訳（メタデータ） (2024-06-28T15:47:25Z)
Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems [0.0]
我々は、機械学習を用いてすべてのBLASレベル3操作のランタイムを最適化するアーキテクチャおよびデータ構造対応線形代数ライブラリの拡張について述べる。我々は,MKLとBLISをベースラインBLAS実装として,IntelとAMDプロセッサの2つのHPCプラットフォーム上でテストを行った。最大スレッド数に比べて,すべての操作に対して1.5から3.0の高速化を実現しています。
論文参考訳（メタデータ） (2024-06-28T03:07:53Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文参考訳（メタデータ） (2023-10-08T16:26:18Z)
Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-04-25T04:27:43Z)
RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文参考訳（メタデータ） (2023-01-14T00:07:47Z)
Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-12-23T09:33:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。