論文の概要: Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference
- arxiv url: http://arxiv.org/abs/2403.09636v1
- Date: Thu, 14 Mar 2024 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 18:57:03.154739
- Title: Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference
- Title(参考訳): 動的メモリ圧縮:加速推論のためのLLMの再最適化
- Authors: Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti,
- Abstract要約: 本稿では,動的メモリ圧縮(DMC)を提案する。
DMCトランスフォーマーにプリトレーニング済みの大規模言語モデル(LLM)を適合させ,NVIDIA H100 GPUで最大3.7倍のスループット向上を実現した。
- 参考スコア(独自算出の注目度): 1.9639467358416092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have emerged as the backbone of large language models (LLMs). However, generation remains inefficient due to the need to store in memory a cache of key-value representations for past tokens, whose size scales linearly with the input sequence length and batch size. As a solution, we propose Dynamic Memory Compression (DMC), a method for on-line key-value cache compression at inference time. Most importantly, the model learns to apply different compression rates in different heads and layers. We retrofit pre-trained LLMs such as Llama 2 (7B, 13B and 70B) into DMC Transformers, achieving up to ~3.7x throughput increase in auto-regressive inference on a NVIDIA H100 GPU. DMC is applied via continued pre-training on a negligible percentage of the original data without adding any extra parameters. We find that DMC preserves the original downstream performance with up to 4x cache compression, outperforming up-trained grouped-query attention (GQA). GQA and DMC can be even combined to obtain compounded gains. As a result DMC fits longer contexts and larger batches within any given memory budget.
- Abstract(参考訳): トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。
しかし、過去のトークンのキー値表現のキャッシュをメモリに格納する必要があるため、生成は非効率であり、そのサイズは入力シーケンスの長さとバッチサイズと線形にスケールする。
そこで本研究では,動的メモリ圧縮(Dynamic Memory Compression, DMC)を提案する。
最も重要なことは、モデルが異なる頭と層に異なる圧縮率を適用することを学ぶことだ。
我々は、Llama 2 (7B, 13B, 70B) などの事前トレーニング済み LLM を DMC トランスフォーマーに適合させ、NVIDIA H100 GPU 上での自己回帰推論のスループットを最大 3.7 倍に向上させる。
DMCは、余分なパラメータを加えることなく、元のデータの無視できる割合で継続事前訓練によって適用される。
DMCは、最大4倍のキャッシュ圧縮で、ダウンストリーム性能を保ち、アップトレーニングされたグループクエリ(GQA)よりも優れていた。
GQAとDMCを結合して合成ゲインを得ることもできる。
その結果、DMCは任意のメモリ予算内で、より長いコンテキストとより大きなバッチに適合する。
関連論文リスト
- You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4064488592704]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。
YOCOはキーと値のペアを一度だけキャッシュする。
全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文 参考訳(メタデータ) (2024-05-08T17:57:39Z) - Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless
Generative Inference of LLM [39.77567916589569]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。
本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文 参考訳(メタデータ) (2024-03-08T18:48:30Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - eDKM: An Efficient and Accurate Train-time Weight Clustering for Large
Language Models [19.502740996431452]
微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示している。
メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。
論文 参考訳(メタデータ) (2023-09-02T15:16:35Z) - MEMORY-VQ: Compression for Tractable Internet-Scale Memory [45.7528997281282]
LUMENのようなメモリベースのメソッドは、検索されたパスのトークン表現を事前に計算し、推論を大幅に高速化する。
本稿では,メモリ拡張モデルのストレージ要求を,性能を犠牲にすることなく低減する新しい方法であるMEMORY-VQを提案する。
論文 参考訳(メタデータ) (2023-08-28T21:11:18Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。