Fugu-MT 論文翻訳(概要): Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval

論文の概要: Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval

arxiv url: http://arxiv.org/abs/2508.19740v1
Date: Wed, 27 Aug 2025 10:11:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-28 19:07:41.585206
Title: Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval
Title（参考訳）: スポットライト注意:非線形ハッシュに基づくKVキャッシュ検索による効率的なLCM生成に向けて
Authors: Wenhao Li, Yuxin Zhang, Gen Luo, Haiyuan Wan, Ziyang Gong, Fei Chao, Rongrong Ji,
Abstract要約: 本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
参考スコア（独自算出の注目度）: 67.21678698740267
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reducing the key-value (KV) cache burden in Large Language Models (LLMs) significantly accelerates inference. Dynamically selecting critical KV caches during decoding helps maintain performance. Existing methods use random linear hashing to identify important tokens, but this approach is inefficient due to the orthogonal distribution of queries and keys within two narrow cones in LLMs. We introduce Spotlight Attention, a novel method that employs non-linear hashing functions to optimize the embedding distribution of queries and keys, enhancing coding efficiency and robustness. We also developed a lightweight, stable training framework using a Bradley-Terry ranking-based loss, enabling optimization of the non-linear hashing module on GPUs with 16GB memory in 8 hours. Experimental results show that Spotlight Attention drastically improves retrieval precision while shortening the length of the hash code at least 5$\times$ compared to traditional linear hashing. Finally, we exploit the computational advantages of bitwise operations by implementing specialized CUDA kernels, achieving hashing retrieval for 512K tokens in under 100$\mu$s on a single A100 GPU, with end-to-end throughput up to 3$\times$ higher than vanilla decoding.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるキー値(KV)キャッシュ負荷の低減は、推論を著しく加速する。復号化時に重要なKVキャッシュを動的に選択することは、パフォーマンスの維持に役立つ。既存の手法では、重要なトークンを特定するためにランダムな線形ハッシュを用いるが、この手法はLLMの2つの狭い円錐内のクエリとキーの直交分布のために非効率である。スポットライトアテンション(Spotlight Attention)は,クエリとキーの埋め込み分布を最適化し,符号化効率とロバスト性を向上させるために非線形ハッシュ関数を利用する新しい手法である。また、Bradley-Terryランキングベースの損失を利用して、軽量で安定したトレーニングフレームワークを開発し、16GBメモリを持つGPU上の非線形ハッシュモジュールを8時間で最適化できるようにした。実験の結果,Spotlight Attentionは検索精度を大幅に向上し,ハッシュコードの長さを従来の線形ハッシュと比較して少なくとも5$\times$に短縮した。最後に,特殊なCUDAカーネルを実装し,100ドル以下で512Kトークンを1つのA100 GPU上でハッシュ検索し,最大3ドル以上のスループットを実現することにより,ビットワイズ演算の計算上の利点を生かした。

関連論文リスト

HashAttention: Semantic Sparsity for Faster Inference [95.31739930718116]
本稿では,HashAttention,framing pivotal token Identificationを推薦問題として紹介する。トークン1個あたり32ビットの補助メモリしか必要とせず、最小品質の損失を最小限に抑えられるため、最大16タイムで使用されるトークンを削減できる。 A100 GPUでは、HashAttentionを組み込むことで、GPT-FASTで4.3times$、FlashDecodeで2.54times$、GPT-FASTで最大3.12times$高スループットを実現している。
論文参考訳（メタデータ） (2024-12-19T02:34:15Z)
HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing [33.85061974392119]
本稿では,局所性に敏感なハッシュ(LSH)を用いてKVキャッシュを圧縮するアルゴリズムであるHashEvictを紹介する。 HashEvictは、推論、複数選択、長文検索、要約タスクのハイパフォーマンスを維持しながら、KVキャッシュを30%-70%圧縮することができる。
論文参考訳（メタデータ） (2024-12-13T06:00:27Z)
MagicPIG: LSH Sampling for Efficient LLM Generation [41.75038064509643]
以上の結果から,TopKの注意力自体が特定の下流タスクの品質低下に悩まされていることが分かる。局所感性ハッシュ(LSH)に基づく異種システムMagicPIGを提案する。 MagicPIGは、さまざまなタスクに対して高い精度を維持しながら、注意の負荷を大幅に削減する。
論文参考訳（メタデータ） (2024-10-21T16:44:51Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
A Lower Bound of Hash Codes' Performance [122.88252443695492]
本稿では,ハッシュ符号間のクラス間の差分性とクラス内圧縮性が,ハッシュ符号の性能の低い境界を決定することを証明する。次に、ハッシュコードの後部を推定し、それを制御することにより、上記の目的を完全に活用する代理モデルを提案し、低バイアス最適化を実現する。一連のハッシュモデルをテストすることで、平均精度が最大で26.5%、精度が最大で20.5%向上した。
論文参考訳（メタデータ） (2022-10-12T03:30:56Z)
Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。 3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文参考訳（メタデータ） (2020-04-24T02:23:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。