論文の概要: EdgeCIM: A Hardware-Software Co-Design for CIM-Based Acceleration of Small Language Models
- arxiv url: http://arxiv.org/abs/2604.11512v1
- Date: Mon, 13 Apr 2026 14:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.594893
- Title: EdgeCIM: A Hardware-Software Co-Design for CIM-Based Acceleration of Small Language Models
- Title(参考訳): EdgeCIM: CIMベースの小言語モデルの高速化のためのハードウェアソフトウェア共同設計
- Authors: Jinane Bazzi, Mariam Rakka, Fadi Kurdahi, Mohammed E. Fouda, Ahmed Eltawil,
- Abstract要約: We present EdgeCIM, a hardware-ware co-design framework that rethinks accelerate design for end-to-end decoder-only inference。
NVIDIA Orin Nanoと比較すると、EdgeCIMは最大7.3倍のスループットと49.59倍のエネルギー効率を実現している。
- 参考スコア(独自算出の注目度): 2.0160582186611733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for deploying Small Language Models (SLMs) on edge devices, including laptops, smartphones, and embedded platforms, has exposed fundamental inefficiencies in existing accelerators. While GPUs handle prefill workloads efficiently, the autoregressive decoding phase is dominated by GEMV operations that are inherently memory-bound, resulting in poor utilization and prohibitive energy costs at the edge. In this work, we present EdgeCIM, a hardware-software co-design framework that rethinks accelerator design for end-to-end decoder-only inference. At its core is a CIM macro, implemented in 65nm, coupled with a tile-based mapping strategy that balances pipeline stages, maximizing parallelism while alleviating DRAM bandwidth bottlenecks. Our simulator enables design space exploration of SLMs up to 4B parameters, identifying Pareto-optimal configurations in terms of latency and energy. Compared to an NVIDIA Orin Nano, EdgeCIM achieves up to 7.3x higher throughput and 49.59x better energy efficiency on LLaMA3.2-1B, and delivers 9.95x higher throughput than Qualcomm SA8255P on LLaMA3.2-3B. Extensive benchmarks on TinyLLaMA-1.1B, LLaMA3.2 (1B, 3B), Phi-3.5-mini-3.8B, Qwen2.5 (0.5B, 1.5B, 3B), SmolLM2-1.7B, SmolLM3-3B, and Qwen3 (0.6B, 1.7B, 4B) reveal that our accelerator, under INT4 precision, achieves on average 336.42 tokens/s and 173.02 tokens/J. These results establish EdgeCIM as a compelling solution towards real-time, energy-efficient edge-scale SLM inference.
- Abstract(参考訳): ラップトップ、スマートフォン、組み込みプラットフォームを含むエッジデバイスにSLM(Small Language Models)をデプロイする需要が高まっているため、既存のアクセラレーターの基本的な非効率性が明らかになっている。
GPUはプリフィルワークロードを効率的に処理するが、自動回帰復号フェーズは、本質的にメモリバウンドであるGEMV操作が支配しており、使用率が低下し、エッジでのエネルギーコストが禁じられている。
本研究では,ハードウェアソフトウェアの共同設計フレームワークであるEdgeCIMを紹介し,エンドツーエンドデコーダのみの推論のためのアクセラレータ設計を再考する。
中心となるCIMマクロは65nmで実装され、パイプラインステージのバランスを保ち、DRAM帯域のボトルネックを緩和しながら並列性を最大化するタイルベースのマッピング戦略と組み合わせられている。
シミュレーションにより,SLMの設計空間を最大4Bパラメータで探索し,レイテンシとエネルギーの観点からパレート最適構成を同定できる。
NVIDIA Orin Nanoと比較して、EdgeCIMはLLaMA3.2-1Bで最大7.3倍のスループットと49.59倍のエネルギー効率を実現し、LLaMA3.2-3BでQualcomm SA8255Pよりも9.95倍高いスループットを提供する。
TinyLLaMA-1.1B、LLaMA3.2 (1B, 3B)、Phi-3.5-mini-3.8B、Qwen2.5 (0.5B, 1.5B, 3B)、SmolLM2-1.7B、SmolLM3-3B、Qwen3 (0.6B, 1.7B, 4B)の大規模なベンチマークにより、私たちの加速器はINT4精度で平均336.42トークン/s、173.02トークン/Jで達成されていることが明らかになった。
これらの結果から,EdgeCIMをリアルタイム・エネルギー効率の高いエッジスケールSLM推論のための説得力のあるソリューションとして確立した。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - CHIME: Chiplet-based Heterogeneous Near-Memory Acceleration for Edge Multimodal LLM Inference [19.989162649002274]
エッジMLLM推論のためのチップレットベースの異種ニアメモリ高速化であるCHIMEを提案する。
FastVLM (0.6B/1.7B) とMobileVLM (1.7B/3B) では、CHIMEは54倍のスピードアップと最大246倍のエネルギー効率を達成する。
論文 参考訳(メタデータ) (2025-12-12T03:59:36Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs [9.646882213709814]
TeLLMeは、低消費電力のエッジFPGAのためのテーブルルックアップベースの3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
5Wの電力予算の下では、TeLLMeは最大25tokens/sデコードスループットを提供する。
論文 参考訳(メタデータ) (2025-10-03T05:37:51Z) - BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs [5.889337608109388]
TeLLMeは、低消費電力FPGAのための最初の3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
7Wの電力予算の下では、TeLLMeは最大9トークン/秒のスループットを1,024トークンのコンテキストで提供する。
論文 参考訳(メタデータ) (2025-04-22T21:00:58Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。