論文の概要: TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs
- arxiv url: http://arxiv.org/abs/2510.15926v2
- Date: Tue, 21 Oct 2025 17:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.639928
- Title: TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs
- Title(参考訳): TeLLMe v2: エッジFPGA上でのテーブル-ルックアップマトゥルを用いた効率的なエンド・ツー・エンド第三次LLMプリフィルとデコード加速器
- Authors: Ye Qiao, Zhiheng Chen, Yifan Zhang, Yian Wang, Sitao Huang,
- Abstract要約: TeLLMeは、低消費電力のエッジFPGAのためのテーブルルックアップベースの3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
5Wの電力予算の下では、TeLLMeは最大25tokens/sデコードスループットを提供する。
- 参考スコア(独自算出の注目度): 9.646882213709814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of wearable devices and other embedded systems, deploying large language models (LLMs) on edge platforms has become an urgent need. However, this is challenging because of their high computational and memory demands. Although recent low-bit quantization methods (e.g., BitNet, DeepSeek) compress weights to as low as 1.58~bits with minimal accuracy loss, edge deployment is still constrained by limited on-chip resources, power budgets, and the often-neglected long latency of the prefill stage. We present \textbf{TeLLMe}, the first table-lookup-based ternary LLM accelerator for low-power edge FPGAs that fully supports both prefill and autoregressive decoding using 1.58-bit weights and 8-bit activations. TeLLMe incorporates several novel techniques, including (1) a table-lookup-based ternary matrix multiplication (TLMM) engine utilizing grouped activations and online precomputation for low resource utilization and high throughput; (2) a fine-grained analytic URAM-based weight buffer management scheme for efficient loading and compute engine access; (3) a streaming dataflow architecture that fuses floating-point element-wise operations with linear computations to hide latency; (4) a reversed-reordered prefill stage attention with fused attention operations for high memory efficiency; and (5) a resource-efficient specialized decoding stage attention. Under a 5~W power budget, TeLLMe delivers up to 25~tokens/s decoding throughput and 0.45--0.96~s time-to-first-token (TTFT) for 64--128 token prompts, marking a significant energy-efficiency advancement in LLM inference on edge FPGAs.
- Abstract(参考訳): ウェアラブルデバイスやその他の組み込みシステムの出現に伴い、エッジプラットフォームに大規模言語モデル(LLM)をデプロイすることが緊急の必要性が高まっている。
しかし、高い計算量とメモリ要求のため、これは難しい。
最近の低ビット量子化法(例えば、BitNet、DeepSeek)では、重量を1.58〜bitまで圧縮し、最小の精度で損失を減らしているが、エッジデプロイメントは、オンチップリソース、電力予算、プレフィルステージの待ち時間が制限されている。
我々は,1.58ビットの重みと8ビットのアクティベーションを用いたプリフィルと自己回帰デコードの両方を完全にサポートする,低消費電力のFPGA用テーブルルックアップベースの3次LLMアクセラレータである‘textbf{TeLLMe} を提示する。
TeLLMeは,1)グループアクティベーションを利用したテーブルルックアップ型3次行列乗算(TLMM)エンジン,2)効率的なロードおよび計算エンジンアクセスのための微粒化解析的URAMベースの重量バッファ管理スキーム,3)線形計算による浮動小数点演算を融合して遅延を隠蔽するストリーミングデータフローアーキテクチャ,(4)高メモリ効率のためのファスドアテンション操作によるリバースリオーダープレフィルステージアテンション,(5)リソース効率の高い特殊デコードステージアテンションなど,いくつかの新しい手法を取り入れている。
5〜Wの電力予算の下では、TeLLMeは最大25~Tokens/sデコードスループットと0.45~0.96〜s time-token(TTFT)を64--128トークンプロンプトとして提供し、エッジFPGA上でのLLM推論におけるエネルギー効率の大幅な向上を図っている。
関連論文リスト
- TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs [5.889337608109388]
TeLLMeは、低消費電力FPGAのための最初の3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
7Wの電力予算の下では、TeLLMeは最大9トークン/秒のスループットを1,024トークンのコンテキストで提供する。
論文 参考訳(メタデータ) (2025-04-22T21:00:58Z) - MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs [5.88896081401217]
大規模言語モデルのオフチップメモリアクセスを大幅に削減するフレームワークであるMEADOWを紹介する。
MEADOW は GEMM ベースの LLM 実装と比較して 1.5x と 2.5x のデコードとプリフィル遅延を示す。
MEADOWは、従来のLLM最適化作業と比較して、エンドツーエンドのレイテンシの改善を40%以上達成している。
論文 参考訳(メタデータ) (2025-02-14T23:50:37Z) - Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。
この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。
本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:06:05Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。