論文の概要: Fast Forward: Accelerating LLM Prefill with Predictive FFN Sparsity
- arxiv url: http://arxiv.org/abs/2602.00397v1
- Date: Fri, 30 Jan 2026 23:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.158843
- Title: Fast Forward: Accelerating LLM Prefill with Predictive FFN Sparsity
- Title(参考訳): Fast Forward: 予測的なFFNスペーサを備えたLDMプリフィルの高速化
- Authors: Aayush Gautam, Mukul Gagrani, Junyoung Park, Mingu Lee, Chiris Lott, Narasimha Reddy,
- Abstract要約: 我々は,大規模言語モデル (LLM) のプレフィルをブロックワイドでコンテキスト対応のFFNスパシティによって高速化する,予測可能なスパシティフレームワークであるFastForwardを紹介した。
FastForwardは最大1.45$times$計算バウンド・スピードアップを50%FFN間隔で提供し、LongBenchの高密度ベースラインに比べて6%の精度で損失する。
- 参考スコア(独自算出の注目度): 5.223181756178433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prefill stage of large language model (LLM) inference is a key computational bottleneck for long-context workloads. At short-to-moderate context lengths (1K--16K tokens), Feed-Forward Networks (FFNs) dominate this cost, accounting for most of the total FLOPs. Existing FFN sparsification methods, designed for autoregressive decoding, fail to exploit the prefill stage's parallelism and often degrade accuracy. To address this, we introduce FastForward, a predictive sparsity framework that accelerates LLM prefill through block-wise, context-aware FFN sparsity. FastForward combines (1) a lightweight expert predictor to select high-importance neurons per block, (2) an error compensation network to correct sparsity-induced errors, and (3) a layer-wise sparsity scheduler to allocate compute based on token-mixing importance. Across LLaMA and Qwen models up to 8B parameters, FastForward delivers up to 1.45$\times$ compute-bound speedup at 50% FFN sparsity with $<$ 6% accuracy loss compared to the dense baseline on LongBench, substantially reducing Time-to-First-Token (TTFT) for efficient, long-context LLM inference on constrained hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)推論のプリフィルステージは、長期コンテキストワークロードにとって重要な計算ボトルネックである。
ショート・トゥ・モデレートのコンテキスト長(1K-16Kトークン)では、FFN(Feed-Forward Networks)がこのコストを支配し、FLOPの総数の大半を占めている。
既存のFFNスペーシフィケーション法は自己回帰復号のために設計されており、プリフィルステージの並列性を利用しており、しばしば精度を劣化させる。
これを解決するために,ブロックワイドでコンテキスト対応のFFNスパシティを通じてLLMプリフィルを高速化する予測スパシティフレームワークであるFastForwardを紹介した。
FastForwardは,(1)ブロックごとの高重要性ニューロンを選択するための軽量な専門家予測器,(2)スペーサによるエラーを補正するエラー補償ネットワーク,(3)トークン混合の重要度に基づいて計算を割り当てるレイヤワイドスケジューラを組み合わせた。
LLaMAとQwenは最大8Bパラメータをモデル化し、FastForwardは最大1.45$\times$計算バウンド・スピードアップを50%FFN間隔で提供する。
関連論文リスト
- Theoretically Optimal Attention/FFN Ratios in Disaggregated LLM Serving [12.150964112168582]
我々は、AFDバンドルを$r$A-$1$Fトポロジーでサイズ化するための抽出可能な分析フレームワークを開発する。
インスタンス毎の平均スループットを最大化する最適A/F比の閉形式ルールを導出する。
トレース校正されたAFDシミュレータが理論を検証する。
論文 参考訳(メタデータ) (2026-01-29T07:22:27Z) - Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs [8.881949061263784]
並列デコードから dLLM の速度は,コストのかかる拒絶のリスクを大幅に低下させることを示す。
本稿では,dLLMに基づく投機的復号化フレームワークFailFastを提案する。
論文 参考訳(メタデータ) (2025-12-23T18:16:58Z) - TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs [9.646882213709814]
TeLLMeは、低消費電力のエッジFPGAのためのテーブルルックアップベースの3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
5Wの電力予算の下では、TeLLMeは最大25tokens/sデコードスループットを提供する。
論文 参考訳(メタデータ) (2025-10-03T05:37:51Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。