論文の概要: Chiplet-Based RISC-V SoC with Modular AI Acceleration
- arxiv url: http://arxiv.org/abs/2509.18355v1
- Date: Mon, 22 Sep 2025 19:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.546727
- Title: Chiplet-Based RISC-V SoC with Modular AI Acceleration
- Title(参考訳): モジュール型AIアクセラレーションによるChipletベースのRISC-V SoC
- Authors: P. Ramkumar, S. S. Bharadwaj,
- Abstract要約: 本稿では、エッジAIデバイスのための新しいチップレットベースのRISC-Vシステム(SoC)を提案する。
提案アーキテクチャは、7nm RISC-V CPUチップレットと2つの5nm AIアクセラレータ、16GB3メモリスタック、専用電力管理コントローラを統合している。
AIに最適化された構成は、従来の基本的なチップレット実装と比較して14.7%のレイテンシ削減、17.3%のスループット改善、16.2%の電力削減を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
- Abstract(参考訳): アーキテクチャの柔軟性を維持しながら高いパフォーマンス、エネルギー効率、コスト効率を達成することは、エッジAIデバイスの開発とデプロイにおいて重要な課題である。
モノリシックSoCの設計は、主に36mm^2プロセスノードにおける製造効率の低さ(16%以下)のために、この複雑なバランスに苦しむ。
本稿では,モジュール型AIアクセラレーションとインテリジェントシステムレベルの最適化により,これらの制約に対処する,チップレットベースのRISC-V SoCアーキテクチャを提案する。
提案設計では,30mm×30mmのシリコンインターポーザに,適応型クロスチップレットダイナミック電圧および周波数スケーリング(DVFS),ストリーミングフロー制御ユニットと圧縮対応トランスファーを備えたAI対応ユニバーサルチップレットインターコネクトエクスプレス(UCIe)プロトコル拡張,異種チップレット間の分散暗号化セキュリティ,インテリジェントセンサ駆動負荷マイグレーションの4つの重要なイノベーションを統合する。
提案アーキテクチャは、7nm RISC-V CPUチップレットと2つの5nm AIアクセラレータ(15 TOPS INT8)、16GBのHBM3メモリスタックと専用電力管理コントローラを統合している。
MobileNetV2、ResNet-50、リアルタイムビデオ処理といった業界標準ベンチマークの実験結果は、大幅なパフォーマンス向上を示している。
AIに最適化された構成は、従来の基本的なチップレット実装と比較して14.7%のレイテンシ削減、17.3%のスループット改善、16.2%の電力削減を実現している。
これらの改善は総じて、MobileNetV2の推測(860 mW/244イメージ/s)あたりの3.5 mJに相当する40.1%の効率向上であり、同時に、すべての実験ワークロードで5ms以下のリアルタイム能力を維持している。
これらのパフォーマンス向上は、モジュール型チップレットの設計が、次世代のエッジAIデバイスアプリケーションにとって不可欠なコスト効率、スケーラビリティ、アップグレード性を実現しつつ、ほぼモノリシックな計算密度を実現することを実証している。
関連論文リスト
- VUSA: Virtually Upscaled Systolic Array Architecture to Exploit Unstructured Sparsity in AI Acceleration [0.49157446832511503]
VUSAは、より大きな行列乗算を実行するために現在の空間に基づいて仮想的に成長する、シストリックアレイアーキテクチャである。
提案アーキテクチャは, それぞれ37%, 68%の省電力化を実現している。
論文 参考訳(メタデータ) (2025-06-01T20:59:20Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Edge AI without Compromise: Efficient, Versatile and Accurate
Neurocomputing in Resistive Random-Access Memory [0.0]
我々は,RRAM CIMを用いた最初のマルチモーダルエッジAIチップであるNeuRRAMを提案する。
計算ビット精度の異なる先行技術よりも, 5 倍のエネルギー効率を 5 倍から 8 倍に向上することを示す。
この作業は、高度に効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開くものだ。
論文 参考訳(メタデータ) (2021-08-17T21:08:51Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。