論文の概要: DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing
- arxiv url: http://arxiv.org/abs/2604.19351v2
- Date: Wed, 22 Apr 2026 12:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.454744
- Title: DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing
- Title(参考訳): DASH-KV:非対称KVキャッシュハッシュによる長期LLM推論の高速化
- Authors: Jinyu Guo, Zhihan Zhang, Yutong Li, Jiehui Xie, Md. Tamim Iqbal, Dongshen Han, Lik-Hang Lee, Sung-Ho Bae, Jie Zou, Yang Yang, Chaoning Zhang,
- Abstract要約: DASH-KVは,非対称な深層ハッシュによる近接探索として注目を再構築する,革新的なアクセラレーションフレームワークである。
LongBenchの実験では、DASH-KVは、O(N2) から線形 O(N) への推論複雑性を低減しつつ、全注目性能を一致させながら、最先端のベースライン法を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 30.82607063015274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic computational complexity of the standard attention mechanism constitutes a fundamental bottleneck for large language models in long-context inference. While existing KV cache compression methods alleviate memory pressure, they often sacrifice generation quality and fail to address the high overhead of floating-point arithmetic. This paper introduces DASH-KV, an innovative acceleration framework that reformulates attention as approximate nearest-neighbor search via asymmetric deep hashing. Under this paradigm, we design an asymmetric encoding architecture that differentially maps queries and keys to account for their distinctions in precision and reuse characteristics. To balance efficiency and accuracy, we further introduce a dynamic mixed-precision mechanism that adaptively retains full-precision computation for critical tokens. Extensive experiments on LongBench demonstrate that DASH-KV significantly outperforms state-of-the-art baseline methods while matching the performance of full attention, all while reducing inference complexity from O(N^2) to linear O(N). The code is available at https://github.com/Zhihan-Zh/DASH-KV
- Abstract(参考訳): 標準注意機構の二次計算複雑性は、長文推論における大規模言語モデルの基本的なボトルネックを構成する。
既存のKVキャッシュ圧縮手法はメモリの圧縮を緩和するが、生成品質を犠牲にして浮動小数点演算のオーバーヘッドに対処できないことが多い。
DASH-KVは,非対称な深層ハッシュによる近接探索として注目を再構築する,革新的なアクセラレーションフレームワークである。
このパラダイムでは、クエリとキーを差分マッピングして、精度と再利用特性の区別を考慮し、非対称な符号化アーキテクチャを設計する。
さらに、効率と精度のバランスをとるために、臨界トークンの完全精度計算を適応的に保持する動的混合精度機構を導入する。
ロングベンチにおける大規模実験により、DASH-KVは、O(N^2) から線形 O(N) への推論複雑性を減少させながら、全注目のパフォーマンスを一致させながら、最先端のベースライン法を著しく上回ることを示した。
コードはhttps://github.com/Zhihan-Zh/DASH-KVで公開されている。
関連論文リスト
- Latent-Condensed Transformer for Efficient Long Context Modeling [60.72493959155964]
大規模言語モデルに対するLCA(Latent-Condensed Attention)を提案する。
LCAはMLAの潜伏空間内のコンテキストを凝縮し、表現はセマンティック潜伏ベクトルと位置キーに切り離される。
LCAは、最大2.5$times$プリフィルスピードアップと128Kコンテキストでの90%のKVキャッシュ削減を実現している。
論文 参考訳(メタデータ) (2026-04-14T08:40:31Z) - MixKVQ: Query-Aware Mixed-Precision KV Cache Quantization for Long-Context Reasoning [30.527521568636242]
Long Chain-of-Thought (CoT)推論は、Large Language Models (LLM)の機能を大幅に進歩させた。
既存の低ビット量子化法は、複雑な推論タスクにおいて深刻な性能劣化を示すことが多い。
重要鍵チャネルを識別・保存するための軽量なクエリ対応アルゴリズムであるMixKVQを提案する。
論文 参考訳(メタデータ) (2025-12-22T09:44:26Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Streaming Attention Approximation via Discrepancy Theory [11.235024582188288]
本稿では,重要計算の基本となるトークン生成である注目近似のストリーミング複雑性について検討する。
主なコントリビューションは、アテンション計算を$epsilon$-approximating するストリーミングアルゴリズムである BalanceKV です。
論文 参考訳(メタデータ) (2025-02-11T17:18:17Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。