Fugu-MT 論文翻訳(概要): Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

論文の概要: Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

arxiv url: http://arxiv.org/abs/2403.09636v1
Date: Thu, 14 Mar 2024 17:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 18:57:03.154739
Title: Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference
Title（参考訳）: 動的メモリ圧縮:加速推論のためのLLMの再最適化
Authors: Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti,
Abstract要約: 本稿では,動的メモリ圧縮(DMC)を提案する。 DMCトランスフォーマーにプリトレーニング済みの大規模言語モデル(LLM)を適合させ,NVIDIA H100 GPUで最大3.7倍のスループット向上を実現した。
参考スコア（独自算出の注目度）: 1.9639467358416092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have emerged as the backbone of large language models (LLMs). However, generation remains inefficient due to the need to store in memory a cache of key-value representations for past tokens, whose size scales linearly with the input sequence length and batch size. As a solution, we propose Dynamic Memory Compression (DMC), a method for on-line key-value cache compression at inference time. Most importantly, the model learns to apply different compression rates in different heads and layers. We retrofit pre-trained LLMs such as Llama 2 (7B, 13B and 70B) into DMC Transformers, achieving up to ~3.7x throughput increase in auto-regressive inference on a NVIDIA H100 GPU. DMC is applied via continued pre-training on a negligible percentage of the original data without adding any extra parameters. We find that DMC preserves the original downstream performance with up to 4x cache compression, outperforming up-trained grouped-query attention (GQA). GQA and DMC can be even combined to obtain compounded gains. As a result DMC fits longer contexts and larger batches within any given memory budget.
Abstract（参考訳）: トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。しかし、過去のトークンのキー値表現のキャッシュをメモリに格納する必要があるため、生成は非効率であり、そのサイズは入力シーケンスの長さとバッチサイズと線形にスケールする。そこで本研究では,動的メモリ圧縮(Dynamic Memory Compression, DMC)を提案する。最も重要なことは、モデルが異なる頭と層に異なる圧縮率を適用することを学ぶことだ。我々は、Llama 2 (7B, 13B, 70B) などの事前トレーニング済み LLM を DMC トランスフォーマーに適合させ、NVIDIA H100 GPU 上での自己回帰推論のスループットを最大 3.7 倍に向上させる。 DMCは、余分なパラメータを加えることなく、元のデータの無視できる割合で継続事前訓練によって適用される。 DMCは、最大4倍のキャッシュ圧縮で、ダウンストリーム性能を保ち、アップトレーニングされたグループクエリ(GQA)よりも優れていた。 GQAとDMCを結合して合成ゲインを得ることもできる。その結果、DMCは任意のメモリ予算内で、より長いコンテキストとより大きなバッチに適合する。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference [19.59857352852377]
大規模言語モデル(LLM)は、急速にサイズを拡大し続けている。これにより、小さなエッジデバイス上でのLLMの動作の困難さが増した。本稿では,LLM重みを圧縮形式で格納するHuff-LLMを提案する。
論文参考訳（メタデータ） (2025-02-02T21:23:42Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文参考訳（メタデータ） (2024-10-16T08:34:51Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。 KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T09:43:52Z)
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文参考訳（メタデータ） (2024-05-21T06:46:37Z)
GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM [37.87634266742105]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文参考訳（メタデータ） (2024-03-08T18:48:30Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。 LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文参考訳（メタデータ） (2024-01-16T09:18:46Z)
eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models [19.502740996431452]
微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示している。メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。
論文参考訳（メタデータ） (2023-09-02T15:16:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。