論文の概要: Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge
- arxiv url: http://arxiv.org/abs/2605.00536v2
- Date: Mon, 04 May 2026 11:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:07.101833
- Title: Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge
- Title(参考訳): Tempus: Versal AI Edge用の一時的にスケーラブルなリソース不変GEMMストリーミングフレームワーク
- Authors: M. Grailoo, J. Núñez-Yáñez,
- Abstract要約: 本稿では,AMD Versal AI Edgeシステムのためのリソース不変時GEMMフレームワークを提案する。
我々はTempusが10.677Wのオンチップパワーで607GOPSを達成したことを示す。
我々はまた、Tempusが先頭空間SOTA(ARIES)よりも211.2倍高いプロミネンス係数を達成することを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws for Large Language Models (LLMs) establish that model quality improves with computational scale, yet edge deployment imposes strict constraints on compute, memory, and power. Since General Matrix Multiplication (GEMM) accounts for up to 90% of inference time, efficient GEMM acceleration is critical for edge AI. The Adaptive Intelligent Engines available in the AMD Versal adaptive SoCs are well suited for this task, but existing state-of-the-art (SOTA) frameworks maximize performance through spatial scaling, distributing workloads across hundreds of cores -- an approach that fails on resource-limited edge SoCs due to physical implementation failures, bandwidth saturation, and excessive resource consumption. We propose Tempus, a Resource-Invariant Temporal GEMM framework for the AMD Versal AI Edge SoC. Rather than expanding hardware resources with matrix size, Tempus employs a fixed compute block of 16 AIE-ML cores, achieving scalability through iterative graph execution and algorithmic data tiling and replication in the Programmable Logic. High-speed cascade streaming ensures low-latency partial sum reduction at Initiation Interval (II) of 1, while a deadlock-free DATAFLOW protocol maximizes transfer-compute overlap and PLIO reuse. Evaluated on GEMM workloads, Tempus achieves 607 GOPS at 10.677 W total on-chip power. By characterizing system-level efficiency through the Platform-Aware Utility (PAU) metric, we prove that Tempus achieves a 211.2x higher prominence factor than the leading spatial SOTA (ARIES). Furthermore, the framework maintains a 0.00% utilization of URAM/DSP, yielding 22.0x core frugality, 7.1x power frugality, and a 6.3x reduction in I/O demand, establishing a sustainable, scalable foundation for edge LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリング法則は、モデルの品質が計算規模で向上することを保証するが、エッジデプロイメントは計算、メモリ、電力に厳しい制約を課す。
General Matrix Multiplication (GEMM) は推論時間の最大90%を占めるため、エッジAIには効率的なGEMMアクセラレーションが不可欠である。
AMD Versalで利用可能なAdaptive Intelligent Enginesは、このタスクに適しているが、既存の最先端のSOTA(State-of-the-art)フレームワークは、空間スケーリングを通じてパフォーマンスを最大化し、数百のコアにわたってワークロードを分散する。
我々は、AMD Versal AI Edge SoCのためのリソース不変時GEMMフレームワークであるTempusを提案する。
行列サイズでハードウェアリソースを拡張する代わりに、Tempusは16のAIE-MLコアの固定された計算ブロックを使用し、反復グラフ実行とProgrammable Logicにおけるアルゴリズムデータタイリングとレプリケーションによってスケーラビリティを実現する。
高速カスケードストリーミングは1の開始間隔(II)における低レイテンシ部分和の低減を保証し、デッドロックフリーのData dataFLOWプロトコルは転送-計算重複とPLIOの再利用を最大化する。
GEMMのワークロードに基づいて、Tempusは10.677Wで607GOPSを達成した。
また,Platform-Aware Utility(PAU)測定値を用いてシステムレベルの効率性を特徴付けることにより,Tempusが先行空間SOTA(ARIES)よりも211.2倍高いプロミネンス係数を達成できることを証明した。
さらに、URAM/DSPの0.00%の利用を維持し、22.0倍のコアフレジャリティ、7.1倍のパワーフレジャリティ、および6.3倍のI/O需要削減を実現し、エッジLCM推論のための持続可能でスケーラブルな基盤を確立する。
関連論文リスト
- Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks [5.186026342830856]
Splitコンピューティングは、リソース制約のあるエッジデバイスとクラウドサーバの間で、ディープニューラルネットワーク推論を分散する。
本研究では、非対称整数量子化とスパーステンソル表現を併用したレンジ非対称数値システム(rANS)の符号化を利用して、伝送オーバーヘッドを劇的に低減する新しい軽量圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T12:33:59Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization [99.96330641363396]
ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
論文 参考訳(メタデータ) (2025-10-07T02:39:20Z) - PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design [6.554916179445241]
グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。
GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。
SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。
本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
論文 参考訳(メタデータ) (2025-07-02T00:35:43Z) - Geminet: Learning the Duality-based Iterative Process for Lightweight Traffic Engineering in Changing Topologies [53.38648279089736]
Geminetは軽量でスケーラブルなMLベースのTEフレームワークで、トポロジの変更を処理できる。
そのニューラルネットワークサイズは、既存のスキームの0.04%から7%に過ぎない。
大規模なトポロジでトレーニングすると、Geminetは10ギB未満のメモリを消費し、HARPが要求する80ギBの8倍以下である。
論文 参考訳(メタデータ) (2025-06-30T09:09:50Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference [10.608817382813786]
混合精度行列(英: Mixed-precision matrix, mpGEMM)は、より高精度な活性化を伴う低精度重みの乗算を含む重要かつ未解明の演算である。
オフザシェルフハードウェアはこの操作をサポートしておらず、間接的、すなわち非効率な復号化ベースの実装に繋がる。
本稿では,mpGEMMのルックアップテーブル(LUT)に基づくアプローチについて検討し,従来のLUT実装では期待値の達成に失敗することを確認した。
論文 参考訳(メタデータ) (2024-08-12T08:52:14Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。