論文の概要: SHIELD: A Segmented Hierarchical Memory Architecture for Energy-Efficient LLM Inference on Edge NPUs
- arxiv url: http://arxiv.org/abs/2604.07396v1
- Date: Wed, 08 Apr 2026 08:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.445311
- Title: SHIELD: A Segmented Hierarchical Memory Architecture for Energy-Efficient LLM Inference on Edge NPUs
- Title(参考訳): ShiELD:エッジNPU上でのエネルギー効率の良いLLM推論のための階層型階層型メモリアーキテクチャ
- Authors: Jintao Zhang, Xuanyao Fong,
- Abstract要約: 高密度の組み込みDRAM(eDRAM)は、活性化ワークスペースを格納するのに魅力的であるが、周期的なリフレッシュはかなりのエネルギーを消費する。
本稿では,bfloat16アクティベーションにおける時間的存在感とビットレベルの感度を利用するライフサイクル対応セグメント化eDRAMアーキテクチャであるShielDを提案する。
ShiELDは、WikiText-2、PIQA、ARC-Easyの精度を維持しながら、標準的なリフレッシュベースラインと比較して、eDRAMのリフレッシュエネルギーを35%削減する。
- 参考スコア(独自算出の注目度): 7.486984248509206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) inference on edge Neural Processing Units (NPUs) is fundamentally constrained by limited on-chip memory capacity. Although high-density embedded DRAM (eDRAM) is attractive for storing activation workspaces, its periodic refresh consumes substantial energy. Prior work has primarily focused on reducing off-chip traffic or optimizing refresh for persistent Key-Value (KV) caches, while transient and error-resilient Query and Attention Output (QO) activations are largely overlooked. We propose SHIELD, a lifecycle-aware segmented eDRAM architecture that jointly exploits temporal residency and bit-level sensitivity in bfloat16 (BF16) activations. SHIELD isolates the sign and exponent fields from the mantissa, disables refresh for transient QO mantissas, and applies relaxed refresh to persistent KV mantissas. Across multiple LLMs and inference scenarios, SHIELD reduces eDRAM refresh energy by 35% relative to a standard-refresh baseline while preserving accuracy on WikiText-2, PIQA, and ARC-Easy.
- Abstract(参考訳): エッジニューラル処理ユニット(NPU)に対するLarge Language Model (LLM)推論は、オンチップメモリ容量の制限により基本的に制限される。
高密度の組み込みDRAM(eDRAM)は、活性化ワークスペースを格納するのに魅力的であるが、周期的なリフレッシュはかなりのエネルギーを消費する。
以前の作業は主にオフチップトラフィックの削減やキーバリュー(KV)キャッシュのリフレッシュの最適化に重点を置いていたが、過渡的かつエラー耐性のあるクエリとアテンションアウトプット(QO)のアクティベーションは概ね見過ごされている。
本稿では,bfloat16(BF16)アクティベートにおいて,時間的存在感とビットレベルの感度を両立させるライフサイクル対応セグメンテーション型eDRAMアーキテクチャであるShielDを提案する。
ShiELDは、サインと指数フィールドをマティッサから分離し、一過性のQOマティッサのリフレッシュを無効化し、永続的なKVマティッサに緩和リフレッシュを適用する。
複数のLCMと推論シナリオで、SHELDはWikiText-2、PIQA、ARC-Easyの精度を維持しながら、標準的なリフレッシュベースラインと比較してeDRAMのリフレッシュエネルギーを35%削減する。
関連論文リスト
- Neural Dynamics Self-Attention for Spiking Transformers [59.57278823240336]
TransformerアーキテクチャによるSNN(Spike Neural Networks)は、エネルギー効率とパフォーマンスのバランスをとるための、有望な経路を提供する。
既存のスパイキングトランスフォーマーは、(i)ニューラルネットワーク(ANN)と(ii)推論時の高メモリオーバーヘッドと比較して、大幅なパフォーマンスギャップがあるという2つの重要な課題に直面している。
本稿では、局所受容野を持つスパイキングニューロンを用いて、メモリ要求を減らしながら注意を計算するLRF-Dynを提案する。
論文 参考訳(メタデータ) (2026-03-09T12:23:37Z) - Prefill vs. Decode Bottlenecks: SRAM-Frequency Tradeoffs and the Memory-Bandwidth Ceiling [5.606289163036201]
エネルギー消費は、大規模言語モデルの展開によるコストと環境への影響を規定する。
本稿では,LLM推論のエネルギー効率と性能に及ぼすオンチップサイズと動作周波数の影響について検討する。
論文 参考訳(メタデータ) (2025-12-26T15:42:29Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Kelle: Co-design KV Caching and eDRAM for Efficient LLM Serving in Edge Computing [9.984481065465028]
エッジデバイス上の大規模言語モデル(LLM)は、レイテンシの低減、リアルタイム処理の改善、プライバシの向上に不可欠である。
エッジデバイスにLLMを実装することは、特にキーバリューキャッシュの管理において、課題となる。
エッジデバイスにおけるLLMのプライマリストレージとしてeDRAMを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:12:08Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。
我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文 参考訳(メタデータ) (2025-07-02T15:44:35Z) - Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking [12.664307714758843]
本稿では,最小限の微調整で精度を保ちながら予測自由な動的スペーシフィケーション手法を提案する。
本稿では、キャッシュの状態とアクティベーションの規模を考慮し、キャッシュヒット率をさらに向上させる新しいキャッシュ対応マスキング戦略について述べる。
DIPは46%のメモリ削減と40%のスループット向上を実現している。
論文 参考訳(メタデータ) (2024-12-02T11:07:51Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。