論文の概要: Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility
- arxiv url: http://arxiv.org/abs/2605.06105v1
- Date: Thu, 07 May 2026 12:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.761886
- Title: Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility
- Title(参考訳): 浅層プリフィル, 深層復号化: 層非対称KV可視性による効率的な長コンテキスト推論
- Authors: Jungsuk Oh, Hyeseo Jeon, Hyunjune Ji, Kyongmin Kong, Jay-Yoon Lee,
- Abstract要約: emphShallow Prefill, dEEp Decode (SPEED) は非アンカープロンプトのKV可視性ポリシーである。
Speedは、上位レイヤのDecode可視性セットからプリフィルトークンを完全に削除する。
その結果,SPEEDは全深度モデルの主要なプロンプト選択領域と表現安定化領域を維持していることがわかった。
- 参考スコア(独自算出の注目度): 8.591057149485676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context inference in decoder-only language models is costly because long prompts are processed during Prefill, cached at every layer, and repeatedly attended to during autoregressive Decode. We introduce \emph{Shallow Prefill, dEEp Decode} (SPEED), a phase-asymmetric KV-visibility policy that materializes non-anchor prompt-token KV states only in lower layers while keeping Decode-phase tokens full-depth. Unlike previous approaches that make upper-layer prompt KV states cheaper to store or construct, SPEED removes prefill tokens from the upper-layer Decode visibility set altogether. With a minimal BoS anchor, this simple change preserves broad benchmark quality while reducing long-context cost. In a controlled Llama-3.1-8B instruction-tuning study, SPEED using only 75\% of layers for prefill tokens reaches 51.2 average score on OLMES-style benchmarks, compared with 51.4 for the full-depth baseline, while improving TTFT by 33\%, TPOT by 22\%, and reducing active KV memory by 25.0\% at 128K context. Layer-wise diagnostics suggest that this cutoff retains the main prompt-selection and representation-stabilization regions of the full-depth model. These results show that long-context prompt tokens need not always persist as full-depth KV-cache objects when Decode-phase tokens remain full-depth.
- Abstract(参考訳): デコーダのみの言語モデルにおける長文推論は、Prefill中に長いプロンプトが処理され、すべての層にキャッシュされ、自動回帰デコード中に繰り返し実行されるため、コストがかかる。
位相非対称なKV可視性ポリシーである \emph{Shallow Prefill, dEEp Decode} (SPEED) を導入する。
上層プロンプトKV状態の保存や構築を安くする従来のアプローチとは異なり、SPEEDは上層Decodeの可視性セットからプリフィルトークンを完全に除去する。
最小限のBoSアンカーで、この単純な変更は、広範囲のベンチマーク品質を維持しながら、長時間のコンテキストコストを削減します。
制御されたLlama-3.1-8B命令チューニング研究において、プリフィルトークンの75\%のレイヤしか使用していないSPEEDは、OLMESスタイルのベンチマークでは平均スコアが51.2、フルディープベースラインでは51.4、TTFTでは33\%、TPOTでは22\%、アクティブなKVメモリでは128Kコンテキストでは25.0\%である。
レイヤワイズ診断は、このカットオフが全深度モデルの主要なプロンプト選択および表現安定化領域を保持することを示唆している。
これらの結果から,Decode-phaseトークンが完全深さのままである場合,長文プロンプトトークンは必ずしも完全深さのKV-cacheオブジェクトとして持続する必要はないことが示された。
関連論文リスト
- Towards Joint Quantization and Token Pruning of Vision-Language Models [53.978753457744055]
トークンプルーニングと低ビット量子化は、推論コストの削減を補完する。
我々は、低ビット推論と決定論的視覚トーケンプルーニングを統一する協調量子化&プルーニングフレームワークを提案する。
標準VLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が改善された。
論文 参考訳(メタデータ) (2026-04-19T08:18:29Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - SpecAttn: Co-Designing Sparse Attention with Self-Speculative Decoding [3.47505166101801]
SpecAttnは、検証誘導スパースアテンションを持つ自己投機的復号法である。
バニラ自動回帰復号法よりも2.81$times$高いスループットと、最先端のパリティベースの復号法よりも1.29$times$高いスループットを実現している。
論文 参考訳(メタデータ) (2026-02-06T22:12:52Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs? [79.58770714228983]
言語モデルは、書籍要約のようなタスクに対して、ますます長いコンテキストを扱う。
これによりキーバリュー(KV)キャッシュのメモリコストが増大する。
以前の多くの研究でKVをメモリから外す方法が提案されているが、そのアプローチは好ましい設定に適合している。
KVフットプリント*は、記憶中のKVエントリの量と寿命の両方を考慮し、統一された計量として提案する。
論文 参考訳(メタデータ) (2025-06-20T16:21:12Z) - Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。
textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文 参考訳(メタデータ) (2025-04-21T09:41:26Z) - LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。
プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。
SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文 参考訳(メタデータ) (2025-03-11T20:45:02Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。