論文の概要: Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems
- arxiv url: http://arxiv.org/abs/2406.19621v1
- Date: Fri, 28 Jun 2024 03:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:00:20.149876
- Title: Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems
- Title(参考訳): 最新のマルチコアシステムにおけるBLASレベル3のマシンラーニング駆動実行最適化
- Authors: Yufan Xia, Giuseppe Maria Junior Barca,
- Abstract要約: 我々は、機械学習を用いてすべてのBLASレベル3操作のランタイムを最適化するアーキテクチャおよびデータ構造対応線形代数ライブラリの拡張について述べる。
我々は,MKLとBLISをベースラインBLAS実装として,IntelとAMDプロセッサの2つのHPCプラットフォーム上でテストを行った。
最大スレッド数に比べて,すべての操作に対して1.5から3.0の高速化を実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BLAS Level 3 operations are essential for scientific computing, but finding the optimal number of threads for multi-threaded implementations on modern multi-core systems is challenging. We present an extension to the Architecture and Data-Structure Aware Linear Algebra (ADSALA) library that uses machine learning to optimize the runtime of all BLAS Level 3 operations. Our method predicts the best number of threads for each operation based on the matrix dimensions and the system architecture. We test our method on two HPC platforms with Intel and AMD processors, using MKL and BLIS as baseline BLAS implementations. We achieve speedups of 1.5 to 3.0 for all operations, compared to using the maximum number of threads. We also analyze the runtime patterns of different BLAS operations and explain the sources of speedup. Our work shows the effectiveness and generality of the ADSALA approach for optimizing BLAS routines on modern multi-core systems.
- Abstract(参考訳): BLASレベル3の操作は科学計算には不可欠であるが、現代のマルチコアシステム上でのマルチスレッド実装に最適なスレッド数を見つけることは困難である。
我々は、機械学習を用いてすべてのBLASレベル3操作のランタイムを最適化するアーキテクチャおよびデータ構造対応線形代数(ADSALA)ライブラリの拡張を提示する。
本手法は,行列次元とシステムアーキテクチャに基づいて,各操作に最適なスレッド数を予測する。
我々は,MKLとBLISをベースラインBLAS実装として,IntelとAMDプロセッサの2つのHPCプラットフォーム上でテストを行った。
最大スレッド数と比較して,すべての操作に対して1.5から3.0の高速化を実現しています。
また、異なるBLAS操作のランタイムパターンを分析し、スピードアップの原因を説明します。
本研究は,現代のマルチコアシステムにおけるBLASルーチンを最適化するためのADSALAアプローチの有効性と汎用性を示す。
関連論文リスト
- Should AI Optimize Your Code? A Comparative Study of Current Large Language Models Versus Classical Optimizing Compilers [0.0]
大規模言語モデル(LLM)は、コード最適化方法論に革命をもたらすAI駆動アプローチの可能性に関する興味深い疑問を提起する。
本稿では、GPT-4.0とCodeLlama-70Bの2つの最先端大言語モデルと従来の最適化コンパイラの比較分析を行う。
論文 参考訳(メタデータ) (2024-06-17T23:26:41Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Analysis of Distributed Optimization Algorithms on a Real Processing-In-Memory System [21.09681871279162]
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
我々のゴールは、現実世界のPIMアーキテクチャ上で人気のある分散最適化アルゴリズムの機能と特性を理解することである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Dissecting the Runtime Performance of the Training, Fine-tuning, and
Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。
我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。
次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文 参考訳(メタデータ) (2023-11-07T03:25:56Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - DnS: Distill-and-Select for Efficient and Accurate Video Indexing and
Retrieval [23.42790810694723]
我々はDnS(Distill-and-Select)と呼ばれる知識蒸留フレームワークを提案する。
異なるアーキテクチャの学生を訓練し、パフォーマンスと効率のトレードオフにたどり着きます。
重要なことに、提案されたスキームは知識蒸留を、大規模で遅延のないデータセットで許可する -- これは良い学生に繋がる。
論文 参考訳(メタデータ) (2021-06-24T18:34:24Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。