論文の概要: ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
- arxiv url: http://arxiv.org/abs/2403.17312v1
- Date: Tue, 26 Mar 2024 01:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 17:05:31.350603
- Title: ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
- Title(参考訳): ALISA: 空間認識型KVキャッシングによる大規模言語モデル推論の高速化
- Authors: Youpeng Zhao, Di Wu, Jun Wang,
- Abstract要約: 我々は,KVキャッシングによる課題に対処するアルゴリズム-システム共設計ソリューションであるALISAを提案する。
アルゴリズムレベルでは、ALISAはスパースウィンドウ注意(SWA)アルゴリズムを介して新しいトークンを生成する上で最も重要なトークンを優先順位付けする。
システムレベルでは、ALISAは3フェーズのトークンレベルの動的スケジューリングを採用し、キャッシュと再計算の間のトレードオフを最適化する。
- 参考スコア(独自算出の注目度): 9.884452250478216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has significantly advanced natural language processing (NLP) and has been foundational in developing large language models (LLMs) such as LLaMA and OPT, which have come to dominate a broad range of NLP tasks. Despite their superior accuracy, LLMs present unique challenges in practical inference, concerning the compute and memory-intensive nature. Thanks to the autoregressive characteristic of LLM inference, KV caching for the attention layers in Transformers can effectively accelerate LLM inference by substituting quadratic-complexity computation with linear-complexity memory accesses. Yet, this approach requires increasing memory as demand grows for processing longer sequences. The overhead leads to reduced throughput due to I/O bottlenecks and even out-of-memory errors, particularly on resource-constrained systems like a single commodity GPU. In this paper, we propose ALISA, a novel algorithm-system co-design solution to address the challenges imposed by KV caching. On the algorithm level, ALISA prioritizes tokens that are most important in generating a new token via a Sparse Window Attention (SWA) algorithm. SWA introduces high sparsity in attention layers and reduces the memory footprint of KV caching at negligible accuracy loss. On the system level, ALISA employs three-phase token-level dynamical scheduling and optimizes the trade-off between caching and recomputation, thus maximizing the overall performance in resource-constrained systems. In a single GPU-CPU system, we demonstrate that under varying workloads, ALISA improves the throughput of baseline systems such as FlexGen and vLLM by up to 3X and 1.9X, respectively.
- Abstract(参考訳): Transformerアーキテクチャは、かなり高度な自然言語処理(NLP)を備えており、LLaMAやOPTといった幅広いNLPタスクを支配している大規模言語モデル(LLM)の開発に基礎を置いている。
精度が優れているにもかかわらず、LLMは計算とメモリ集約性に関して、実用的な推論においてユニークな課題を提示している。
LLM推論の自己回帰特性により、トランスフォーマーの注目層に対するKVキャッシュは、線形複雑メモリアクセスによる二次複雑度計算に代えて、LLM推論を効果的に高速化することができる。
しかし、より長いシーケンスを処理するために需要が増加するにつれて、このアプローチはメモリの増加を必要とします。
オーバーヘッドは、特に単一のコモディティGPUのようなリソース制限されたシステムにおいて、I/Oボトルネックやメモリ外エラーによるスループットの低下につながる。
本稿では,KVキャッシングによる課題に対処するアルゴリズム-システム共設計ソリューションであるALISAを提案する。
アルゴリズムレベルでは、ALISAはスパースウィンドウ注意(SWA)アルゴリズムを介して新しいトークンを生成する上で最も重要なトークンを優先順位付けする。
SWAは注目層に高い空間幅を導入し、KVキャッシュのメモリフットプリントを無視可能な精度損失で削減する。
システムレベルでは、ALISAは3段階のトークンレベルの動的スケジューリングを採用し、キャッシュと再計算の間のトレードオフを最適化する。
1つのGPU-CPUシステムにおいて、ALISAはワークロードの異なる場合、FlexGenやvLLMなどのベースラインシステムのスループットを最大3倍改善し、1.9倍向上することを示した。
関連論文リスト
- FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。
航空機をベースとしたアテンション機構を通じて、地域と世界的なアテンションのバランスを最適化する。
カスケードされたグループアテンションによって計算の冗長性を低減し、計算効率を損なうことなく細部をキャプチャする。
論文 参考訳(メタデータ) (2024-03-16T22:01:55Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Anchor-based Large Language Models [48.5524307381447]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文 参考訳(メタデータ) (2024-02-12T12:48:02Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。