Fugu-MT 論文翻訳(概要): ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

論文の概要: ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

arxiv url: http://arxiv.org/abs/2402.15220v3
Date: Sat, 13 Jul 2024 02:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 01:55:15.588728
Title: ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition
Title（参考訳）: ChunkAttention: プリフィックス対応KVキャッシュと2相分割による効率的なセルフアテンション
Authors: Lu Ye, Ze Tao, Yong Huang, Yang Li,
Abstract要約: ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。実験によると、ChunkAttentionは、最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できる。
参考スコア（独自算出の注目度）: 3.659659889927316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-attention is an essential component of large language models (LLM) but a significant source of inference latency for long sequences. In multi-tenant LLM serving scenarios, the compute and memory operation cost of self-attention can be optimized by using the probability that multiple LLM requests have shared system prompts in prefixes. In this paper, we introduce ChunkAttention, a prefix-aware self-attention module that can detect matching prompt prefixes across multiple requests and share their key/value tensors in memory at runtime to improve the memory utilization of KV cache. This is achieved by breaking monolithic key/value tensors into smaller chunks and structuring them into the auxiliary prefix tree. Consequently, on top of the prefix-tree based KV cache, we design an efficient self-attention kernel, where a two-phase partition algorithm is implemented to improve the data locality during self-attention computation in the presence of shared system prompts. Experiments show that ChunkAttention can speed up the self-attention kernel by 3.2-4.8$\times$ compared to the start-of-the-art implementation, with the length of the system prompt ranging from 1024 to 4096.
Abstract（参考訳）: 自己注意は、大規模言語モデル(LLM)の重要なコンポーネントであるが、長いシーケンスに対する推論遅延の重要な原因である。マルチテナント LLM サービスシナリオでは、複数の LLM 要求がプレフィックス内で共有システムプロンプトを持つ確率を用いて、自己アテンションの計算とメモリ操作のコストを最適化することができる。本稿では,複数の要求にまたがる一致したプロンプトプレフィックスを検出し,そのキー/値テンソルを実行時にメモリ上で共有し,KVキャッシュのメモリ使用率を向上させるための,プレフィックス対応セルフアテンションモジュールであるChunkAttentionを紹介する。これは、モノリシックなキー/値テンソルを小さなチャンクに分割し、それらを補助的なプレフィックスツリーに構造化することで実現される。その結果,プレフィックスツリーをベースとしたKVキャッシュ上に,2相分割アルゴリズムを実装した効率的な自己アテンションカーネルを設計し,共有システムプロンプトが存在する場合の自己アテンション計算におけるデータの局所性を改善する。実験の結果、ChunkAttentionは1024年から4096年までのシステムプロンプトで、最先端の実装と比較して3.2-4.8$\times$を高速化できることがわかった。

関連論文リスト

InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models [4.4248984733976275]
innerQはハードウェア対応のKVキャッシュ量子化スキームで、精度を犠牲にすることなく遅延を復号する。内部次元上のキャッシュ行列をグループ化しながら、グループワイズ量子化を適用する。 Llamaモデルに対する評価実験により、InnerQは非量子化KVキャッシュに匹敵する数ショットのGSM8K性能を維持していることが示された。
論文参考訳（メタデータ） (2026-02-26T16:50:36Z)
S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference [11.779449360037518]
S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。 S3-Attentionは、軽量なスパースオートエンコーダを使用して、トランジェントキーとクエリプロジェクションをトップkスパース機能識別子にデコードする。単一のストリーミングスキャン中にトークンの位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
論文参考訳（メタデータ） (2026-01-25T05:25:22Z)
Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。 SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-24T18:59:05Z)
Paged Attention Meets FlexAttention: Unlocking Long-Context Efficiency in Deployed Inference [1.0175051111288864]
我々はPyTorchのFlexAttentionとPagedAttentionの新たな統合を紹介します。 NVIDIA L4 GPUのベンチマークでは、推論遅延が大幅に削減された。実装全体をオープンソースとして公開し、将来の長期コンテキストモデル展開におけるその意義について論じます。
論文参考訳（メタデータ） (2025-06-08T22:59:20Z)
FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding [44.47821531299985]
複数のプロンプト間のプレフィックス共有は、共有プレフィックスの操作を組み合わせる機会を提供する。デコーディングは、プレフィックスのキー値(KV)キャッシュに大量のメモリアクセスを必要とするメモリ集約プロセスである。我々は,共有KVキャッシュのメモリアクセスをデコードステージ,すなわちFlashForgeで組み合わせるための専用アテンションカーネルを提案する。
論文参考訳（メタデータ） (2025-05-23T10:03:28Z)
Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文参考訳（メタデータ） (2025-05-09T04:17:05Z)
MPCache: MPC-Friendly KV Cache Eviction for Efficient Private Large Language Model Inference [5.1206021159434805]
MPCacheは、長いシーケンスの履歴トークンが下流のデコードに異なる影響を与える可能性があるという観察に基づいて構築されている。 MPCacheは、異なるLLM生成タスク間で、先進的なKVキャッシュ消去ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-01-12T13:18:04Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference [22.684773338989007]
大規模言語モデル(LLM)は、トークンの共有プレフィックスを持つツリー構造において、複数の世代呼び出しを処理する複雑なタスクにますます採用されている。木に基づくアプリケーションの既存の推論システムは、注意計算中にクエリとKVキャッシュの不適切なパーティショニングのために非効率である。我々は,プレフィックス認識と負荷分散KVキャッシュパーティションを用いたハードウェア効率の高いアテンションアルゴリズムであるDeFTを提案する。
論文参考訳（メタデータ） (2024-03-30T04:34:54Z)
Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文参考訳（メタデータ） (2024-03-14T02:42:42Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。