Fugu-MT 論文翻訳(概要): Performant Automatic BLAS Offloading on Unified Memory Architecture with OpenMP First-Touch Style Data Movement

論文の概要: Performant Automatic BLAS Offloading on Unified Memory Architecture with OpenMP First-Touch Style Data Movement

arxiv url: http://arxiv.org/abs/2501.00279v2
Date: Mon, 10 Feb 2025 18:34:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 16:44:24.684658
Title: Performant Automatic BLAS Offloading on Unified Memory Architecture with OpenMP First-Touch Style Data Movement
Title（参考訳）: OpenMPファーストタッチ型データ移動を用いた統一メモリアーキテクチャ上の高性能自動BLAS負荷
Authors: Junjie Li,
Abstract要約: 本稿では,自動BLASオフロードのための新しいツールであるSCILIB-Accelを紹介する。このツールはCPUバイナリから直接BLASシンボルをインターセプトし、コード修正や再コンパイルは不要である。 SCILIB-Accelは、最大数百のGPUノード上の複数の量子物理学符号を用いて評価され、有望なスピードアップをもたらす。
参考スコア（独自算出の注目度）: 16.464496913614315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: BLAS is a fundamental building block of advanced linear algebra libraries and many modern scientific computing applications. GPUs are known for their strong arithmetic computing capabilities and are highly suited for BLAS operations. However, porting code to GPUs often requires significant effort, especially for large, complex codes or legacy codes, even for BLAS-heavy applications. While various tools exist to automatically offload BLAS to GPUs, they are often impractical due to the high costs associated with mandatory data transfers. The advent of unified memory architectures in recent GPU designs, such as the NVIDIA Grace-Hopper, allows cache-coherent memory access across all types of memory for both CPU and GPU, potentially eliminating the bottlenecks faced in conventional architectures. This breakthrough paves the way for innovative application developments and porting strategies. Building on our preliminary work demonstrating the potential of automatic *gemm offload, this paper extends the framework to all level-3 BLAS operations and introduces SCILIB-Accel, a novel tool for automatic BLAS offload. SCILIB-Accel leverages the memory coherency in Grace-Hopper and introduces a Device First-Use data movement policy inspired by the OpenMP First-Touch approach in multi-socket CPU programming, minimizing CPU-GPU data transfers for typical scientific computing codes. Additionally, utilizing dynamic binary instrumentation, the tool intercepts BLAS symbols directly from a CPU binary, requiring no code modifications or recompilation. SCILIB-Accel has been evaluated using multiple quantum physics codes on up to a few hundred GPU nodes, yielding promising speedups. Notably, for the LSMS method in the MuST suite, a 3x speedup was achieved on Grace-Hopper compared to Grace-Grace.
Abstract（参考訳）: BLASは、先進線形代数ライブラリと多くの現代の科学計算応用の基本的な構成要素である。 GPUは強力な算術演算能力で知られており、BLAS演算に非常に適している。しかしながら、GPUへのコードの移植には、特に大規模で複雑なコードやレガシーなコードでは、BLAS対応のアプリケーションでさえ、多大な労力を要することが多い。 BLASをGPUに自動的にオフロードするさまざまなツールが存在するが、必須データ転送に伴う高コストのため、しばしば非現実的である。 NVIDIA Grace-Hopperのような最近のGPU設計における統一メモリアーキテクチャの出現により、CPUとGPUの両方のあらゆるタイプのメモリにキャッシュコヒーレントなメモリアクセスが可能となり、従来のアーキテクチャで直面するボトルネックを排除できる可能性がある。このブレークスルーは、革新的なアプリケーション開発と移植戦略の道を開く。本稿では,このフレームワークを全レベル3のBLAS操作に拡張し,自動BLASオフロードのための新しいツールであるSCILIB-Accelを導入する。 SCILIB-AccelはGrace-Hopperのメモリコヒーレンシーを活用し、マルチソケットCPUプログラミングにおけるOpenMP First-TouchアプローチにインスパイアされたDevice First-Useデータ移動ポリシーを導入し、典型的な科学計算コードに対するCPU-GPUデータ転送を最小化する。さらに、動的バイナリインスツルメンテーションを利用することで、BLASシンボルをCPUバイナリから直接インターセプトし、コード修正や再コンパイルを必要としない。 SCILIB-Accelは、最大数百のGPUノード上の複数の量子物理学符号を用いて評価され、有望なスピードアップをもたらす。特に, MuST スイートの LSMS 法では, Grace-Grace と比較して, Grace-Hopper で 3 倍の高速化を実現している。

関連論文リスト

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems [0.0]
我々は、機械学習を用いてすべてのBLASレベル3操作のランタイムを最適化するアーキテクチャおよびデータ構造対応線形代数ライブラリの拡張について述べる。我々は,MKLとBLISをベースラインBLAS実装として,IntelとAMDプロセッサの2つのHPCプラットフォーム上でテストを行った。最大スレッド数に比べて,すべての操作に対して1.5から3.0の高速化を実現しています。
論文参考訳（メタデータ） (2024-06-28T03:07:53Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文参考訳（メタデータ） (2023-10-02T16:55:19Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文参考訳（メタデータ） (2022-07-16T09:39:53Z)
ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。 ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。 ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文参考訳（メタデータ） (2021-10-01T16:25:40Z)
In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文参考訳（メタデータ） (2020-05-19T15:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。