Fugu-MT 論文翻訳(概要): Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities

論文の概要: Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities

arxiv url: http://arxiv.org/abs/2505.06085v2
Date: Thu, 15 May 2025 13:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 14:06:36.651383
Title: Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities
Title（参考訳）: TenstorrentのRISC-V MatMul Acceleration機能の評価
Authors: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini,
Abstract要約: 本稿では,基本線形代数核に対するテンストレントグレイスコールe75 RISC-V加速器の性能を数値的精度で評価する。本稿では,Grayskullの実行モデル,グリッドサイズ,行列次元,データ形式,数値的精度の計算効率について述べる。
参考スコア（独自算出の注目度）: 2.81562931579552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing demand for generative AI as Large Language Models (LLMs) services has driven the need for specialized hardware architectures that optimize computational efficiency and energy consumption. This paper evaluates the performance of the Tenstorrent Grayskull e75 RISC-V accelerator for basic linear algebra kernels at reduced numerical precision, a fundamental operation in LLM computations. We present a detailed characterization of Grayskull's execution model, gridsize, matrix dimensions, data formats, and numerical precision impact computational efficiency. Furthermore, we compare Grayskull's performance against state-of-the-art architectures with tensor acceleration, including Intel Sapphire Rapids processors and two NVIDIA GPUs (V100 and A100). Whilst NVIDIA GPUs dominate raw performance, Grayskull demonstrates a competitive trade-off between power consumption and computational throughput, reaching a peak of 1.55 TFLOPs/Watt with BF16.
Abstract（参考訳）: LLM(Large Language Models)サービスとしての生成AIの需要の増加により、計算効率とエネルギー消費を最適化する特別なハードウェアアーキテクチャの必要性が高まっている。本稿では,LLM計算における基本線形代数核に対するTenstorrent Grayskull e75 RISC-V加速器の性能評価を行う。本稿では,Grayskullの実行モデル,グリッドサイズ,行列次元,データ形式,数値的精度の計算効率について述べる。さらに、Grayskullのパフォーマンスを最先端アーキテクチャと、Intel Sapphire RapidsプロセッサとNVIDIA GPU(V100とA100)を含むテンソルアクセラレーションと比較する。 NVIDIA GPUが生のパフォーマンスを支配しているのに対して、Grayskull氏は消費電力と計算スループットの競合的なトレードオフを示し、BF16で1.55 TFLOP/Wattに達した。

関連論文リスト

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning [55.17170420615628]
長いコンテキスト推論は、複雑なタスクに対処するために大きな言語モデル(LLM)を著しく強化した。本稿では,視覚テキスト圧縮を推論プロセスに統合した新しい効率的な推論パラダイムであるVTC-R1を提案する。このアプローチは推論効率を大幅に改善し、エンドツーエンドのレイテンシで2.7倍の高速化を実現します。
論文参考訳（メタデータ） (2026-01-29T18:07:39Z)
GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale [0.0]
GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。 AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
論文参考訳（メタデータ） (2025-12-25T14:47:36Z)
MatKV: Trading Compute for Flash Storage in LLM Inference [16.298087695723982]
MatKVはRAGオブジェクトのキー値ベクトル(KV)をプリ計算するスキームである。安価だが高速で効率の良いフラッシュストレージで実現している。 RAGワークロードの推論時間と消費電力を半分に削減します。
論文参考訳（メタデータ） (2025-12-20T14:17:00Z)
Accelerated Digital Twin Learning for Edge AI: A Comparison of FPGA and Mobile GPU [4.116096531149171]
本稿では,FPGAなどの再構成可能なハードウェア上での高速化を実現するための一般的なDT学習フレームワークを提案する。 DTガイドによる1型糖尿病の合成データ生成法と冠動脈疾患の予防的検出法について検討した。
論文参考訳（メタデータ） (2025-12-13T05:51:26Z)
The Role of High-Performance GPU Resources in Large Language Model Based Radiology Imaging Diagnosis [0.0]
大規模言語モデル(LLM)は放射線学に急速に適用され、自動画像解釈とレポート生成タスクが実現されている。高性能なグラフィカル処理ユニット(GPU)は、画像データ上で大きなLLMを実行するために必要な計算量とメモリスループットを提供する。
論文参考訳（メタデータ） (2025-09-19T18:13:12Z)
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving [12.068287973463786]
Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
論文参考訳（メタデータ） (2025-04-17T14:45:03Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文参考訳（メタデータ） (2024-01-30T19:27:16Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Exploiting On-chip Heterogeneity of Versal Architecture for GNN Inference Acceleration [0.5249805590164902]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析やバイオインフォマティクスなど、多くの機械学習(ML)アプリケーションに革命をもたらした。我々は,AMD Versal ACAPアーキテクチャの不均一な計算能力を活用し,GNN推論を高速化する。グラフ畳み込みネットワーク(GCN)では,同一のACAPデバイス上でのみPLを用いた設計と比較して3.9-96.7倍の高速化を実現している。
論文参考訳（メタデータ） (2023-08-04T23:57:55Z)
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。 EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-05-29T20:07:23Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。