論文の概要: LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding
- arxiv url: http://arxiv.org/abs/2606.04302v1
- Date: Wed, 03 Jun 2026 00:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.437149
- Title: LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding
- Title(参考訳): LazyAttention: 位置エンコーディングを省略した効率的な検索拡張生成
- Authors: Haocheng Xia, Mihir Pamnani, Hanxi Fang, Supawit Chockchowwat, Yongjoo Park,
- Abstract要約: キーバリュー(KV)キャッシュは、生成されたトークンに対する過去の計算を再利用することで、大きな言語モデル(LLM)の推論を加速する。
既存のソリューションは、再利用をプレフィックスに制限するか、位置再符号化のために高価なメモリの実体化を必要とする。
本稿では、遅延位置符号化をカーネル化し、ゼロコピーで位置に依存しないKVの再利用を可能にする新しいアテンション機構であるLazyAttentionを紹介する。
- 参考スコア(独自算出の注目度): 11.799175681800696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key-value (KV) caching accelerates inference of large language models (LLMs) by reusing past computations for generated tokens. Its importance becomes even greater in long-context applications such as retrieval-augmented generation (RAG) and in-context learning (ICL). However, conventional KV caching embeds positional information directly into the cache, limiting its reusability. Existing solutions either restrict reuse to prefixes or require expensive memory materialization for positional re-encoding. We introduce LazyAttention, a novel attention mechanism that kernelizes deferred positional encoding to enable zero-copy, position-agnostic KV reuse. By adjusting positional encoding within attention kernels on-the-fly, LazyAttention resolves the materialization bottleneck, allowing a single physical KV copy to serve multiple logical requests at arbitrary positions. Leveraging attention kernels tailored for prefilling and decoding, our system achieves significant efficiency improvements: under skewed document distributions, it reduces time-to-first-token (TTFT) by 1.37$\times$ and increases inference throughput by 1.40$\times$ compared to the state-of-the-art Block-Attention, while maintaining comparable output quality.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、生成されたトークンに対する過去の計算を再利用することで、大きな言語モデル(LLM)の推論を加速する。
その重要性は、検索拡張生成(RAG)やテキスト内学習(ICL)といった長いコンテキストアプリケーションにおいてさらに高くなる。
しかし、従来のKVキャッシュは位置情報をキャッシュに直接埋め込むため、再利用性は制限される。
既存のソリューションは、再利用をプレフィックスに制限するか、位置再符号化のために高価なメモリの実体化を必要とする。
本稿では,遅延した位置エンコーディングをカーネル化し,ゼロコピーで位置に依存しないKVの再利用を可能にする新しいアテンション機構であるLazyAttentionを紹介する。
注目カーネル内の位置エンコーディングをオンザフライで調整することで、LazyAttentionは物質化ボトルネックを解消し、1つの物理KVコピーが任意の位置で複数の論理的要求を処理できるようにする。
文書分布が歪んだ場合、TTFT(Time-to-first-token)を1.37$\times$に削減し、最先端のBlock-Attentionと比較して推論スループットを1.40$\times$に向上させ、出力品質を同等に維持する。
関連論文リスト
- SPHERICAL KV: Angle-Domain Attention and Rate-Distortion Retention for Efficient Long-Context Inference [16.38817531610931]
本稿では,KV割り当てを高速復号化のためのレート歪み問題として扱う長文推論手法であるSpherical KVを提案する。
この手法は, (i)デコードホットループにおいて, 方向性情報を安価に表現し, (ii) 予測された将来の有用性に応じて, 保持と精度を割り当てる2つのアイデアに基づいて構築される。
論文 参考訳(メタデータ) (2026-05-13T18:48:48Z) - You Need an Encoder for Native Position-Independent Caching [28.778240400537175]
LLM(Large Language Models)のキーバリューキャッシュはプレフィックスベースである。
位置独立キャッシング(PIC)は、位置制約なしでKVの再利用を可能にするために提案されている。
我々は、エンコーダを一般的なデコーダのみのLLMに再導入し、PICをサポートするように明示的にトレーニングすることで、ネイティブなPICを提案する。
さらに,既存の推論フレームワークとシームレスに統合可能なPIC対応キャッシングシステムであるCOMBを開発した。
論文 参考訳(メタデータ) (2026-02-02T01:23:13Z) - MEPIC: Memory Efficient Position Independent Caching for LLM Serving [16.99046229452175]
位置,要求,バッチ間でのチャンクKVの再利用を可能にするメモリ効率のよいシステムを提案する。
MePICはチャンクKVをページストレージにアライメントし、再計算をトークンレベルからブロックレベルにシフトする。
論文 参考訳(メタデータ) (2025-12-18T18:04:01Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving [11.750209684686707]
大きな言語モデル(LLM)による生成的推論は、しばしば長い復号シーケンスを含む。
本稿では,動的KVキャッシュ管理フレームワークLetheを提案する。
Letheは様々なモデルやタスク間で効率と生成品質のバランスを良好に保ち、スループットを最大2.56倍に向上させる。
論文 参考訳(メタデータ) (2025-11-08T14:52:43Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。