Fugu-MT 論文翻訳(概要): Optimizing Sparse Linear Algebra Through Automatic Format Selection and Machine Learning

論文の概要: Optimizing Sparse Linear Algebra Through Automatic Format Selection and Machine Learning

arxiv url: http://arxiv.org/abs/2303.05098v1
Date: Thu, 9 Mar 2023 08:17:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 15:46:36.643913
Title: Optimizing Sparse Linear Algebra Through Automatic Format Selection and Machine Learning
Title（参考訳）: 自動フォーマット選択と機械学習によるスパース線形代数の最適化
Authors: Christodoulos Stylianou, Michele Weiland
Abstract要約: Morpheus-Oracleは軽量なMLオートチューニングを提供するライブラリで、複数のバックエンドで最適なフォーマットを正確に予測できる。平均分類精度は92.63%と80.22%である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse matrices are an integral part of scientific simulations. As hardware evolves new sparse matrix storage formats are proposed aiming to exploit optimizations specific to the new hardware. In the era of heterogeneous computing, users often are required to use multiple formats for their applications to remain optimal across the different available hardware, resulting in larger development times and maintenance overhead. A potential solution to this problem is the use of a lightweight auto-tuner driven by Machine Learning (ML) that would select for the user an optimal format from a pool of available formats that will match the characteristics of the sparsity pattern, target hardware and operation to execute. In this paper, we introduce Morpheus-Oracle, a library that provides a lightweight ML auto-tuner capable of accurately predicting the optimal format across multiple backends, targeting the major HPC architectures aiming to eliminate any format selection input by the end-user. From more than 2000 real-life matrices, we achieve an average classification accuracy and balanced accuracy of 92.63% and 80.22% respectively across the available systems. The adoption of the auto-tuner results in average speedup of 1.1x on CPUs and 1.5x to 8x on NVIDIA and AMD GPUs, with maximum speedups reaching up to 7x and 1000x respectively.
Abstract（参考訳）: スパース行列は科学シミュレーションの不可欠な部分である。ハードウェアが進化するにつれて、新しいハードウェア特有の最適化を活用すべく、新しいスパースマトリックスストレージ形式が提案されている。ヘテロジニアスコンピューティングの時代において、ユーザは、利用可能な異なるハードウェアにまたがって最適な状態を維持するために、アプリケーションのために複数のフォーマットを使用する必要がある。この問題に対する潜在的な解決策は、機械学習(ml)によって駆動される軽量なオートチューニングを使用することで、ユーザが利用可能なフォーマットのプールから最適なフォーマットを選択することで、スパーシティパターン、ターゲットハードウェア、実行操作の特徴にマッチする。本稿では,複数のバックエンドにまたがる最適なフォーマットを正確に予測可能な軽量MLオートチューニングライブラリであるMorpheus-Oracleを紹介する。 2000以上の実生活行列から、平均的な分類精度と平衡精度はそれぞれ92.63%と80.22%である。オートチューニングの採用により、CPUでは1.1倍、NVIDIAとAMDのGPUでは1.5倍から8倍、それぞれ最大速度は7倍と1000倍に達する。

関連論文リスト

Morello: Compiling Fast Neural Networks with Dynamic Programming and Spatial Compression [5.995843028932167]
本稿では,大規模なプログラム仕様をより小さな仕様に分解することで,検索空間をより深く探求するための動的プログラミングに基づくアプローチを提案する。メモリ要求を減らすために,Z_geq 0$の座標で仕様をインデックス化し,同一の隣接解を圧縮する,新しいメモ表表現を用いる。
論文参考訳（メタデータ） (2025-05-03T00:14:31Z)
Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving [12.068287973463786]
Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
論文参考訳（メタデータ） (2025-04-17T14:45:03Z)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文参考訳（メタデータ） (2024-11-01T21:11:48Z)
Misam: Using ML in Dataflow Selection of Sparse-Sparse Matrix Multiplication [0.8363939984237685]
スパース行列行列行列乗法(SpGEMM)は、科学計算、グラフ解析、ディープラーニングにおいて重要な演算である。従来のハードウェアアクセラレータは、固定されたデータフロースキームを備えた特定のスパーシティパターン用に調整されている。本稿では,SpGEMMタスクに最適なデータフロースキームを適応的に選択するための機械学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-06-14T16:36:35Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Machine Learning-Driven Adaptive OpenMP For Portable Performance on Heterogeneous Systems [1.885335997132172]
プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。本稿では,機械学習による自律的適応のためのOpenMPの拡張を提案する。私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。
論文参考訳（メタデータ） (2023-03-15T18:37:18Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)
On Extending Amdahl's law to Learn Computer Performance [0.0]
並列計算機性能の学習問題はマルチコアプロセッサの文脈で検討される。我々は、Amdahlの法則を拡張して、複数のリソースを全体的なスピードアップ方程式に適合させることを提案する。高速化方程式を機械学習に適した多変数回帰問題に変換する。
論文参考訳（メタデータ） (2021-10-15T02:37:07Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。