論文の概要: Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities
- arxiv url: http://arxiv.org/abs/2505.06085v1
- Date: Fri, 09 May 2025 14:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.297263
- Title: Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities
- Title(参考訳): TenstorrentのRISC-V MatMul Acceleration機能の評価
- Authors: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini,
- Abstract要約: 本稿では,基本線形代数核に対するテンストレントグレイスコールe75 RISC-V加速器の性能を数値的精度で評価する。
本稿では,Grayskullの実行モデル,グリッドサイズ,行列次元,データ形式,数値的精度の計算効率について述べる。
- 参考スコア(独自算出の注目度): 2.81562931579552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for generative AI as Large Language Models (LLMs) services has driven the need for specialized hardware architectures that optimize computational efficiency and energy consumption. This paper evaluates the performance of the Tenstorrent Grayskull e75 RISC-V accelerator for basic linear algebra kernels at reduced numerical precision, a fundamental operation in LLM computations. We present a detailed characterization of Grayskull's execution model, gridsize, matrix dimensions, data formats, and numerical precision impact computational efficiency. Furthermore, we compare Grayskull's performance against state-of-the-art architectures with tensor acceleration, including Intel Sapphire Rapids processors and two NVIDIA GPUs (V100 and A100). Whilst NVIDIA GPUs dominate raw performance, Grayskull demonstrates a competitive trade-off between power consumption and computational throughput, reaching a peak of 1.55 TFLOPs/Watt with BF16.
- Abstract(参考訳): LLM(Large Language Models)サービスとしての生成AIの需要の増加により、計算効率とエネルギー消費を最適化する特別なハードウェアアーキテクチャの必要性が高まっている。
本稿では,LLM計算における基本線形代数核に対するTenstorrent Grayskull e75 RISC-V加速器の性能評価を行う。
本稿では,Grayskullの実行モデル,グリッドサイズ,行列次元,データ形式,数値的精度の計算効率について述べる。
さらに、Grayskullのパフォーマンスを最先端アーキテクチャと、Intel Sapphire RapidsプロセッサとNVIDIA GPU(V100とA100)を含むテンソルアクセラレーションと比較する。
NVIDIA GPUが生のパフォーマンスを支配しているのに対して、Grayskull氏は消費電力と計算スループットの競合的なトレードオフを示し、BF16で1.55 TFLOP/Wattに達した。
関連論文リスト
- Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving [12.068287973463786]
Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。
低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。
低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
論文 参考訳(メタデータ) (2025-04-17T14:45:03Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。