論文の概要: AHASD: Asynchronous Heterogeneous Architecture for LLM Adaptive Drafting Speculative Decoding on Mobile Devices
- arxiv url: http://arxiv.org/abs/2604.25326v2
- Date: Wed, 29 Apr 2026 03:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:54.147921
- Title: AHASD: Asynchronous Heterogeneous Architecture for LLM Adaptive Drafting Speculative Decoding on Mobile Devices
- Title(参考訳): AHASD: モバイルデバイス上でのLLM適応ドラフト投機デコードのための非同期不均一アーキテクチャ
- Authors: Ma Zirui, Fan Zhihua, Li Wenxing, Wu Haibin, Zhang Fulin, Ye Xiaochun, Li Wenming,
- Abstract要約: 本稿では,タスクレベルの非同期モバイルNPU-PIMヘテロジニアスアーキテクチャであるAHASDを紹介する。
特に、AHASDはタスクレベルのDLM-TLMデカップリングにより、PIMの並列ドラフトと単一のNPUの検証を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding enhances the inference efficiency of large language models (LLMs) by generating drafts using a small draft language model (DLM) and verifying them in batches with a large target language model (TLM). However, adaptive drafting inference on a mobile single-NPU-PIM system faces idle overhead in traditional operator-level synchronous execution and wasted computation in asynchronous execution due to fluctuations in draft length. This paper introduces AHASD, a task-level asynchronous mobile NPU-PIM heterogeneous architecture for speculative decoding. Notably, AHASD achieves parallel drafting on the PIM and verification on a single NPU through task-level DLM-TLM decoupling and specifically, it incorporates Entropy-History-Aware Drafting Control and Time-Aware Pre-Verification Control to dynamically manage adaptive drafting algorithm execution and pre-verification timing, suppressing invalid drafting based on low-confidence drafts. Additionally, AHASD integrates Attention Algorithm Units and Gated Task Scheduling Units within LPDDR5-PIM to enable attention link localization and sub-microsecond task switching on the PIM side. Experimental results for different LLMs and adaptive drafting algorithms show that AHASD achieves up to 4.2$\times$ in throughput and 5.6$\times$ in energy efficiency improvements over a GPU-only baseline, and 1.5$\times$ in throughput and 1.24$\times$ in energy efficiency gains over the state-of-the-art GPU+PIM baseline, with hardware overhead below 3\% of the DRAM area.
- Abstract(参考訳): 投機的復号化は、小さなドラフト言語モデル(DLM)を用いてドラフトを生成し、大きなターゲット言語モデル(TLM)でバッチで検証することにより、大きな言語モデル(LLM)の推論効率を高める。
しかし,移動体単NPU-PIMシステムにおける適応的起草推定は,従来の演算子レベルの同期実行においてアイドルオーバーヘッドに直面し,起草長さの変動による非同期実行では無駄な計算を行う。
本稿では,タスクレベルの非同期モバイルNPU-PIMヘテロジニアスアーキテクチャであるAHASDを紹介する。
特に、AHASDはタスクレベルのDLM-TLMデカップリングを通じて単一のNPU上での並列ドラフトと検証を実現し、特にEntropy-History-Aware Drafting ControlとTime-Aware Pre-Verification Controlを組み込んで、適応的なドラフトアルゴリズムの実行と事前検証のタイミングを動的に管理し、低信頼のドラフトに基づいて無効なドラフトを抑える。
さらに、AHASDはLPDDR5-PIM内にアテンションアルゴリズムユニットとゲーテッドタスクスケジューリングユニットを統合し、PIM側のアテンションリンクローカライズとサブマイクロ秒タスク切替を可能にする。
異なるLLMと適応起草アルゴリズムの実験結果から、AHASDのスループットは4.2$\times$、GPUのみのベースラインよりもエネルギー効率が5.6$\times$、スループットは1.5$\times$、そして1.24$\times$のエネルギー効率は最先端のGPU+PIMベースラインよりも向上し、ハードウェアオーバーヘッドはDRAM領域の3倍以下である。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - HALO: Memory-Centric Heterogeneous Accelerator with 2.5D Integration for Low-Batch LLM Inference [8.057006406834462]
大きな言語モデル(LLM)は、レイテンシに敏感なアプリケーションにおける効率的な推論の需要を増大させた。
これらの課題に対するヘテロジニアスメモリ中心のアクセラレータであるHALOを提案する。
HALOはAtAccの最大18倍の幾何平均速度を達成し,注目度を最適化したマッピング,CENTの2.5倍を実現している。
論文 参考訳(メタデータ) (2025-10-03T02:20:17Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format [5.527166214435735]
量子化大言語モデル(LLM)は低ビット整数(INT)重みを利用し、浮動小数点(FP)アクティベーションを保持する。
これにより、コストのかかるメモリアクセスと計算に関連するFPアクティベーションに、エネルギとレイテンシのボトルネックがシフトする。
既存のLCMアクセラレータは、FP計算とデータ移動を協調的に最適化する可能性を見越して、計算最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-11-24T20:59:39Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。