論文の概要: CUTEv2: Unified and Configurable Matrix Extension for Diverse CPU Architectures with Minimal Design Overhead
- arxiv url: http://arxiv.org/abs/2604.11615v1
- Date: Mon, 13 Apr 2026 15:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.647486
- Title: CUTEv2: Unified and Configurable Matrix Extension for Diverse CPU Architectures with Minimal Design Overhead
- Title(参考訳): CUTEv2: 最小設計オーバヘッドを持つ多言語CPUアーキテクチャのための統一かつ構成可能なマトリックス拡張
- Authors: Jinpeng Ye, Chongxi Wang, Wenqing Li, Bin Yuan, Shiyi Wang, Fenglu Zhang, Junyu Yue, Jianan Xie, Yunhao Ye, Haoyu Deng, Yingkun Zhou, Xin Cheng, Fuxin Zhang, Jian Wang,
- Abstract要約: マトリックス拡張は、AIワークロードの急増する要求に対処するために、現代のCPUに不可欠な機能として登場した。
本稿では,CPU行列拡張アーキテクチャの統一化とカスタマイズについて述べる。
このアーキテクチャは4つのオープンソースのCPU RTLプラットフォームに統合され、代表的AIモデルで評価される。
- 参考スコア(独自算出の注目度): 10.813246578469942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix extensions have emerged as an essential feature in modern CPUs to address the surging demands of AI workloads. However, existing designs often incur substantial hardware and software design overhead. Tight coupling with the CPU pipeline complicates integration across diverse CPUs, while fine-grained synchronous instructions hinder the development of high-performance kernels. This paper proposes a unified and configurable CPU matrix extension architecture. By decoupling matrix units from the CPU pipeline, the design enables low-overhead integration while maintaining close coordination with existing compute and memory resources. The configurable matrix unit supports mixed-precision operations and adapts to diverse compute demands and memory bandwidth constraints. An asynchronous matrix multiplication abstraction with flexible granularity conceals hardware details, simplifies matrix-vector overlap, and supports a unified software stack. The architecture is integrated into four open-source CPU RTL platforms and evaluated on representative AI models. Matrix unit utilization under GEMM workloads exceeds 90% across all platforms. When configured with compute throughput and memory bandwidth comparable to Intel AMX, our design achieves speedups of 1.57x, 1.57x, and 2.31x on ResNet, BERT, and Llama3, with over 30% of the gains attributed to overlapped matrix-vector execution. A 4 TOPS@2GHz matrix unit occupies only 0.53 mm\textsuperscript{2} in 14nm CMOS. These results demonstrate strong cross-platform adaptability and effective hardware-software co-optimization, offering a practical matrix extension for the open-source community.
- Abstract(参考訳): マトリックス拡張は、AIワークロードの急増する要求に対処するために、現代のCPUに不可欠な機能として登場した。
しかし、既存の設計はしばしばハードウェアとソフトウェアの設計のオーバーヘッドを発生させる。
CPUパイプラインとのタイトな結合は、様々なCPU間の統合を複雑にし、きめ細かい同期命令は、高性能カーネルの開発を妨げる。
本稿では,CPU行列拡張アーキテクチャの統一化と構成について述べる。
CPUパイプラインから行列ユニットを分離することで、設計は、既存の計算やメモリリソースとの密接な連携を維持しながら、低オーバーヘッドの統合を可能にする。
構成可能な行列ユニットは混合精度演算をサポートし、様々な計算要求やメモリ帯域幅の制約に適応する。
フレキシブルな粒度を持つ非同期行列乗算抽象化は、ハードウェアの詳細を隠蔽し、行列とベクトルのオーバーラップを単純化し、統一されたソフトウェアスタックをサポートする。
このアーキテクチャは4つのオープンソースのCPU RTLプラットフォームに統合され、代表的AIモデルで評価される。
GEMMワークロード下でのマトリックス単位の利用は、全プラットフォームで90%以上である。
Intel AMXに匹敵する計算スループットとメモリ帯域幅で設定すると、ResNet, BERT, Llama3で1.57x, 1.57x, 2.31xの高速化を実現し、行列ベクトルの重複によるゲインの30%以上を処理できる。
4TOPS@2GHz行列ユニットは14nm CMOSでわずか 0.53 mm\textsuperscript{2} しか占有していない。
これらの結果は、強力なクロスプラットフォーム適応性と効果的なハードウェアとソフトウェアの共同最適化を示し、オープンソースコミュニティに実用的なマトリックス拡張を提供する。
関連論文リスト
- CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities [8.982222466965384]
CPUベースの推論に最適化された新しいビジョンバックボーンモデルであるCPUBoneを紹介する。
CPUBoneは、幅広いCPUデバイスにわたる最先端のSpeed-Accuracy Trade-offs(SAT)を実現する。
論文 参考訳(メタデータ) (2026-03-27T13:55:06Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - HEAT: A Highly Efficient and Affordable Training System for
Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。
マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。
本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文 参考訳(メタデータ) (2023-04-14T18:07:26Z) - VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile
Acceleration on CPUs [7.807134159136234]
この研究は、高密度マトリックスエンジン上でのISAおよびマイクロアーキテクチャ拡張の集合であるVEGETAを示し、CPUの柔軟な構造的空間性をサポートする。
VEGETAエンジンは、4:4 (dense), 2:4, 1:4, and unstructured sparse Layerを実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。
論文 参考訳(メタデータ) (2023-02-17T04:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。