Fugu-MT 論文翻訳(概要): HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing

論文の概要: HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing

arxiv url: http://arxiv.org/abs/2412.16187v2
Date: Tue, 24 Dec 2024 13:04:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 16:57:55.856831
Title: HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing
Title（参考訳）: HashEvict: 局所感性ハッシュを用いた事前アテンションKVキャッシュ消去戦略
Authors: Minghui Liu, Tahseen Rabbani, Tony O'Halloran, Ananth Sankaralingam, Mary-Anne Hartley, Brian Gravelle, Furong Huang, Cornelia Fermüller, Yiannis Aloimonos,
Abstract要約: 本稿では,局所性に敏感なハッシュ(LSH)を用いてKVキャッシュを圧縮するアルゴリズムであるHashEvictを紹介する。 HashEvictは、推論、複数選択、長文検索、要約タスクのハイパフォーマンスを維持しながら、KVキャッシュを30%-70%圧縮することができる。
参考スコア（独自算出の注目度）: 32.62377392686119
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based large language models (LLMs) use the key-value (KV) cache to significantly accelerate inference by storing the key and value embeddings of past tokens. However, this cache consumes significant GPU memory. In this work, we introduce HashEvict, an algorithm that uses locality-sensitive hashing (LSH) to compress the KV cache. HashEvict quickly locates tokens in the cache that are cosine dissimilar to the current query token. This is achieved by computing the Hamming distance between binarized Gaussian projections of the current token query and cached token keys, with a projection length much smaller than the embedding dimension. We maintain a lightweight binary structure in GPU memory to facilitate these calculations. Unlike existing compression strategies that compute attention to determine token retention, HashEvict makes these decisions pre-attention, thereby reducing computational costs. Additionally, HashEvict is dynamic - at every decoding step, the key and value of the current token replace the embeddings of a token expected to produce the lowest attention score. We demonstrate that HashEvict can compress the KV cache by 30%-70% while maintaining high performance across reasoning, multiple-choice, long-context retrieval and summarization tasks.
Abstract（参考訳）: トランスフォーマーベースの大言語モデル(LLM)は、キーバリュー(KV)キャッシュを使用して、過去のトークンのキーと値の埋め込みを格納することで、推論を大幅に高速化する。しかし、このキャッシュは重要なGPUメモリを消費する。本研究では,局所性に敏感なハッシュ(LSH)を用いてKVキャッシュを圧縮するアルゴリズムであるHashEvictを紹介する。 HashEvictは、現在のクエリトークンと類似しないキャッシュ内のトークンを素早く見つける。これは、現在のトークンクエリの二項化ガウス射影とキャッシュされたトークンキーの間のハミング距離を計算し、射影距離を埋め込み次元よりもはるかに小さくすることで達成される。我々は、これらの計算を容易にするために、GPUメモリに軽量なバイナリ構造を維持している。トークンの保持を決定するために注意を計算している既存の圧縮戦略とは異なり、HashEvictはこれらの決定を事前に保持し、計算コストを削減している。さらに、HashEvictは動的で、デコードステップ毎に、現在のトークンのキーと値が、最も低い注意スコアを期待するトークンの埋め込みを置き換える。我々は、HashEvictが、推論、複数選択、長文検索、要約タスクのハイパフォーマンスを維持しながら、KVキャッシュを30%-70%圧縮できることを実証した。

関連論文リスト

Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference [2.0449242727404235]
非構造化空間は、LLMのKVキャッシュ圧縮を大幅に改善する。非構造化空間下でのキーキャッシュとバリューキャッシュの両方に高い効果が期待できる。
論文参考訳（メタデータ） (2025-05-28T22:32:15Z)
TokenButler: Token Importance is Predictable [8.514853311344458]
大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。以前の研究では、トークンの小さなサブセットのみが、各デコードステップに有意義に寄与することが示されている。 TokenButlerは、これらの重要なトークンを識別することを学ぶ、高粒度でクエリ対応の予測器である。
論文参考訳（メタデータ） (2025-03-10T16:41:14Z)
HashAttention: Semantic Sparsity for Faster Inference [91.54218318798603]
HashAttentionは、推奨問題としてピボットトークンの識別をキャストする原則的なアプローチである。ビットワイズ演算を用いて、このハミング空間における所定のクエリに対する重要なトークンを効率的に識別する。これはLongBenchとLlama-3.1-8Bモデルの1/32times$で使用されるトークンの数を減らすことができる。
論文参考訳（メタデータ） (2024-12-19T02:34:15Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。 textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。 KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。 LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文参考訳（メタデータ） (2024-05-23T07:37:16Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文参考訳（メタデータ） (2024-02-08T22:17:40Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。 3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文参考訳（メタデータ） (2020-04-24T02:23:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。