論文の概要: LoMA: Lossless Compressed Memory Attention
- arxiv url: http://arxiv.org/abs/2401.09486v2
- Date: Sun, 4 Feb 2024 03:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:06:15.786850
- Title: LoMA: Lossless Compressed Memory Attention
- Title(参考訳): LoMA: ロスレス圧縮メモリ注意
- Authors: Yumeng Wang, Zhenyang Xiao
- Abstract要約: Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face limitations due to the high demand on GPU
memory and computational resources when handling long contexts. While sparsify
the Key-Value (KV) cache of transformer model is a typical strategy to
alleviate resource usage, it unavoidably results in the loss of information. We
introduce Lossless Compressed Memory Attention (LoMA), a novel approach that
enables lossless compression of the KV cache, thereby reducing the memory and
computational demands during autoregressive generation. LoMA incorporates a
specialized training or fine-tuning precedure alongside an autoregressive
generation algorithm optimized for the compressed context. Our method
compresses the KV cache after every $tc$ generated tokens with a compression
ratio of $c$ and a target compressed length $t$, and this process occurs within
a single inference pass without dependency on auxiliary models. We engineered
an efficient training scheme involving specific inputs, attention masks, and
position identifiers to instill this compression capability. Experimental
validation has demonstrated that LoMA significantly reducing computational
consumption and memory usage through achieving lossless KV cache compression.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長いコンテキストを扱う場合のGPUメモリと計算リソースの要求が高いため、制限に直面します。
トランスフォーマーモデルのキー値キャッシュ(kv)をスパーシフィケーションすることは、リソースの使用を緩和する典型的な戦略であるが、情報を失うことは避けられない。
本稿では,kvキャッシュのロスレス圧縮を可能にする新しい手法であるロスレス圧縮メモリアテンション(loma)を導入する。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
提案手法は,各$tc$生成トークンの圧縮比$c$と目標圧縮長$t$の後にKVキャッシュを圧縮し,補助モデルに依存しない単一推論パス内で発生する。
我々は,特定の入力,アテンションマスク,位置識別子を含む効率的なトレーニングスキームを考案し,その圧縮能力を再現した。
実験により、ロマは損失のないKVキャッシュ圧縮を達成し、計算消費とメモリ使用量を大幅に削減した。
関連論文リスト
- CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - ZigZagkv: Dynamic KV Cache Compression for Long-context Modeling based on Layer Uncertainty [35.947737679664016]
推論長が増加するにつれて、KVキャッシュの増加はメモリ外問題を引き起こす可能性がある。
本稿では,各層に予算規模を割り当てるために,層不確実性を利用した簡易かつ効果的なKVキャッシュ圧縮手法を提案する。
実験の結果,提案手法はフルKV推定と比較して,KVキャッシュのメモリ使用量を$sim$20%に削減できることがわかった。
論文 参考訳(メタデータ) (2024-12-12T07:52:56Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。
KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。
LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文 参考訳(メタデータ) (2024-05-23T07:37:16Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference [1.9639467358416092]
トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。
本稿では,動的メモリ圧縮(DMC)を提案する。
Llama 2 (7B, 13B, 70B) などの事前学習 LLM を DMC トランスフォーマーに適合させ,NVIDIA H100 GPU 上での自己回帰推論で最大 7 倍のスループット向上を実現した。
論文 参考訳(メタデータ) (2024-03-14T17:59:26Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。