Fugu-MT 論文翻訳(概要): Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking

論文の概要: Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking

arxiv url: http://arxiv.org/abs/2412.01380v1
Date: Mon, 02 Dec 2024 11:07:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.517822
Title: Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking
Title（参考訳）: 動的入力プルーニングとキャッシュ対応マスキングを用いた効率的なLCM推論
Authors: Marco Federici, Davide Belli, Mart van Baalen, Amir Jalalirad, Andrii Skliar, Bence Major, Markus Nagel, Paul Whatmough,
Abstract要約: 動的入力プルーニング(Dynamic Input Pruning, DIP)は、最小限の微調整で精度を保ち、予測不要な動的スペーシフィケーション手法である。本稿では、キャッシュの状態とアクティベーションの規模を考慮し、キャッシュヒット率をさらに向上させる新しいキャッシュ対応マスキング戦略について述べる。 Phi-3-Mediumでは、DIPは46%のメモリ削減と40%のスループット向上を実現している。
参考スコア（独自算出の注目度）: 12.664307714758843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While mobile devices provide ever more compute power, improvements in DRAM bandwidth are much slower. This is unfortunate for large language model (LLM) token generation, which is heavily memory-bound. Previous work has proposed to leverage natural dynamic activation sparsity in ReLU-activated LLMs to reduce effective DRAM bandwidth per token. However, more recent LLMs use SwiGLU instead of ReLU, which result in little inherent sparsity. While SwiGLU activations can be pruned based on magnitude, the resulting sparsity patterns are difficult to predict, rendering previous approaches ineffective. To circumvent this issue, our work introduces Dynamic Input Pruning (DIP): a predictor-free dynamic sparsification approach, which preserves accuracy with minimal fine-tuning. DIP can further use lightweight LoRA adapters to regain some performance lost during sparsification. Lastly, we describe a novel cache-aware masking strategy, which considers the cache state and activation magnitude to further increase cache hit rate, improving LLM token rate on mobile devices. DIP outperforms other methods in terms of accuracy, memory and throughput trade-offs across simulated hardware settings. On Phi-3-Medium, DIP achieves a 46% reduction in memory and 40% increase in throughput with $<$ 0.1 loss in perplexity.
Abstract（参考訳）: モバイルデバイスはより多くの計算能力を提供するが、DRAM帯域幅の改善はずっと遅い。これは大きな言語モデル(LLM)トークン生成では不運である。従来,トークン当たりのDRAM帯域幅を削減すべく,ReLU活性化LDMの動的アクティベーション空間の自然な利用法が提案されてきた。しかし、近年のLLMでは、ReLUの代わりにSwiGLUを使用しているため、本質的にはスパース性がほとんどない。 SwiGLUのアクティベーションはマグニチュードに基づいてプルーニングできるが、結果として生じるスパーシティパターンの予測は困難であり、以前のアプローチは効果がない。この問題を回避するために,我々はDIP(Dynamic Input Pruning)を導入している。 DIPはさらに軽量のLoRAアダプタを使用して、スパシフィケーション時に失われたパフォーマンスを回復することができる。最後に、キャッシュの状態とアクティベーションの規模を考慮し、キャッシュヒット率をさらに向上させ、モバイルデバイス上でのLCMトークンレートを改善する新しいキャッシュ対応マスキング戦略について述べる。 DIPは、シミュレートされたハードウェア設定間での精度、メモリ、スループットのトレードオフという点で、他のメソッドよりも優れています。 Phi-3-Mediumでは、DIPは46%のメモリ削減と40%のスループット向上を実現している。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Scaling Up On-Device LLMs via Active-Weight Swapping Between DRAM and Flash [21.8915200300114]
大規模言語モデル(LLM)はモバイルデバイスにますますデプロイされているが、DRAM容量の制限により、デプロイ可能なモデルサイズが制限されている。本稿では,現代のLLMに対して適応的なDRAM利用を実現するための,最初のLLM推論フレームワークであるActiveFlowを紹介する。
論文参考訳（メタデータ） (2025-04-11T09:26:47Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文参考訳（メタデータ） (2024-12-13T02:26:54Z)
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。 PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文参考訳（メタデータ） (2024-11-04T17:59:04Z)
EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。 EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文参考訳（メタデータ） (2024-10-10T08:10:53Z)
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters [20.093224415258174]
活性化間隔は活性化関数によって決定されるが、一般的に使用されるSwiGLUやGeGLUのような活性化間隔は限られている。高品質なトレーニングデータ混合比とともに, LLMの活性化間隔を改善するために設計された新しいdReLU関数を提案する。携帯電話では、TurboSparse-Mixtral-47Bが毎秒11トークンの推論速度を実現しています。
論文参考訳（メタデータ） (2024-06-10T01:21:59Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。