論文の概要: SVD Contextual Sparsity Predictors for Fast LLM Inference
- arxiv url: http://arxiv.org/abs/2603.14110v1
- Date: Sat, 14 Mar 2026 20:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.606933
- Title: SVD Contextual Sparsity Predictors for Fast LLM Inference
- Title(参考訳): 高速LLM推論のためのSVDコンテキスト空間空間性予測器
- Authors: Georgii Serbin, Kirill Koshkin, Zhongao Sun, Anastasiya Bistrigova, C. C. Korikov,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるReGLUベースのフィードフォワードネットワーク(FFN)の推論を高速化するためのフレームワークを提案する。
実験では、複雑な数学やコード生成を含むタスクにおけるベンチマークスコアの1%未満の劣化を維持しながら、エンドツーエンドのデコーディング時間を1.8倍に削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual sparsity is one of the approaches used to reduce computational complexity in the inference process of large language models (LLMs). Existing techniques for efficient LLM inference acceleration based on contextual sparsity with minimal accuracy degradation require training sparse pattern predictors. This paper presents a framework for accelerating inference of ReGLU-based feed-forward networks (FFNs) within LLMs. The proposed framework provides a fast, training-free method for building sparse pattern predictors using truncation-aware singular value decomposition (SVD) of the gate projection matrix, along with a threshold calibration algorithm, and inference executors supporting conditional computation on CUDA and CANN devices. Experiments on three sparse LLMs with an average activation sparsity level of 90% in the FFNs demonstrate up to a 1.8x reduction in end-to-end decoding time while maintaining less than 1% degradation in benchmark scores on tasks involving complex math and code generation. This work advances the deployment of LLMs on edge devices.
- Abstract(参考訳): 文脈空間性 (Contextual sparsity) は、大規模言語モデル(LLM)の推論過程における計算複雑性を低減するために用いられるアプローチの1つである。
最小精度の劣化を伴う文脈間隔に基づくLLM推論の高速化のための既存の手法は、スパースパターン予測器の訓練を必要とする。
本稿では,LLM内のフィードフォワードネットワーク(FFN)の推論を高速化するためのフレームワークを提案する。
提案フレームワークは,ゲートプロジェクション行列のトランケーション対応特異値分解(SVD)としきい値キャリブレーションアルゴリズム,CUDAおよびCANNデバイス上で条件計算をサポートする推論実行器を用いて,スパースパターン予測器を高速かつ訓練不要に構築する方法を提供する。
FFNにおける平均アクティベーション間隔が90%の3つのスパースLCMの実験は、複雑な数学やコード生成を含むタスクにおけるベンチマークスコアの1%未満の劣化を維持しながら、エンドツーエンドの復号時間において1.8倍の低下を示した。
この作業は、エッジデバイスへのLSMの展開を前進させる。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Fast Forward: Accelerating LLM Prefill with Predictive FFN Sparsity [5.223181756178433]
我々は,大規模言語モデル (LLM) のプレフィルをブロックワイドでコンテキスト対応のFFNスパシティによって高速化する,予測可能なスパシティフレームワークであるFastForwardを紹介した。
FastForwardは最大1.45$times$計算バウンド・スピードアップを50%FFN間隔で提供し、LongBenchの高密度ベースラインに比べて6%の精度で損失する。
論文 参考訳(メタデータ) (2026-01-30T23:23:40Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Online Scheduling for LLM Inference with KV Cache Constraints [22.133592174540052]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える、新しい理論的なスケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。