論文の概要: TurboAttention: Efficient Attention Approximation For High Throughputs LLMs
- arxiv url: http://arxiv.org/abs/2412.08585v2
- Date: Mon, 16 Dec 2024 16:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:24.813493
- Title: TurboAttention: Efficient Attention Approximation For High Throughputs LLMs
- Title(参考訳): ターボアテンション:高スループットLLMの効率的なアテンション近似
- Authors: Hao Kang, Srikant Bharadwaj, James Hensman, Tushar Krishna, Victor Ruhle, Saravan Rajmohan,
- Abstract要約: 注意の定量化を可能にする包括的アプローチであるTurboAttentionを提案する。
FlashQは、KVキャッシュの圧縮とアクティベーション-アクティベーション乗算の量子化の両方を可能にする、ヘッドワイズアテンション量子化技術である。
SASは、注目中の指数演算中にFP32への復調を不要にする。
- 参考スコア(独自算出の注目度): 13.54428479541664
- License:
- Abstract: Large language model (LLM) inference demands significant amount of computation and memory, especially in the key attention mechanism. While techniques, such as quantization and acceleration algorithms, like FlashAttention, have improved efficiency of the overall inference, they address different aspects of the problem: quantization focuses on weight-activation operations, while FlashAttention improves execution but requires high-precision formats. Recent Key-value (KV) cache quantization reduces memory bandwidth but still needs floating-point dequantization for attention operation. We present TurboAttention, a comprehensive approach to enable quantized execution of attention that simultaneously addresses both memory and computational efficiency. Our solution introduces two key innovations: FlashQ, a headwise attention quantization technique that enables both compression of KV cache and quantized execution of activation-activation multiplication, and Sparsity-based Softmax Approximation (SAS), which eliminates the need for dequantization to FP32 during exponentiation operation in attention. Experimental results demonstrate that TurboAttention achieves 1.2-1.8x speedup in attention, reduces the KV cache size by over 4.4x, and enables up to 2.37x maximum throughput over the FP16 baseline while outperforming state-of-the-art quantization and compression techniques across various datasets and models.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、特にキーアテンション機構において、大量の計算とメモリを必要とする。
FlashAttentionのような量子化やアクセラレーションアルゴリズムのような技術は、全体的な推論の効率を改善する一方で、問題のさまざまな側面に対処している。
最近のキー値(KV)キャッシュ量子化はメモリ帯域幅を減らすが、注意操作には浮動小数点分数化が必要である。
本稿では,メモリと計算効率の両面を同時に扱う,注目の定量化を実現するための総合的なアプローチであるTurboAttentionを提案する。
提案ソリューションでは,KVキャッシュの圧縮とアクティベーション・アクティベーション・乗算の量子化実行を両立させるヘッドワイド・アテンション・量子化技術であるFlashQと,注目時のFP32へのデクエント化を不要としたスパーシティベースのSoftmax Approximation(SAS)の2つの重要なイノベーションを紹介した。
実験の結果、TurboAttentionは1.2-1.8倍の速度アップを実現し、KVキャッシュサイズを4.4倍以上削減し、FP16ベースライン上で最大2.37倍のスループットを実現し、さまざまなデータセットやモデルに対して、最先端の量子化および圧縮技術より優れていた。
関連論文リスト
- QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression [29.163757099307553]
大型視覚言語モデル(LVLM)のための効率的な推論フレームワークZipVLを提案する。
ZipVLは重要なトークンの動的比割り当て戦略によって計算とメモリのボトルネックを解消する。
実験によると、ZipVLはプリフィルフェーズを2.6$times$で加速し、GPUメモリ使用量を50.0%削減できる。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization [5.572159724234467]
混合精度量子化は重要なパラメータと重要でないパラメータを区別する。
既存の手法は定性的分析と手動実験によってのみ重要なパラメータを識別できる。
本稿では,パラメータの重要性を総合的に評価する定量的枠組みを構築するために,いわゆる「精度アライメント」という新しい基準を提案する。
論文 参考訳(メタデータ) (2024-09-25T01:39:02Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。