論文の概要: Requests of a Feather Must Flock Together: Batch Size vs. Prefix Homogeneity in LLM Inference
- arxiv url: http://arxiv.org/abs/2605.06046v1
- Date: Thu, 07 May 2026 11:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.726281
- Title: Requests of a Feather Must Flock Together: Batch Size vs. Prefix Homogeneity in LLM Inference
- Title(参考訳): LLM推論におけるFather Must Flockの要求:バッチサイズと修正前均一性
- Authors: Saksham Rathi, Preeti, Mythili Vutukuru,
- Abstract要約: 大規模言語モデルにおける自動回帰トークン生成には、すべての前のトークンのキーと値テンソル(KVキャッシュ)を"到着"する必要がある。
以前の作業は、複数のリクエストを合わせて、このデコードプロセスの効率を改善することを目的としていた。
高速なプレフィックス検出と効率的な要求選択を可能にする軽量なデータ構造であるChunked Hash Tree(CHT)を紹介する。
- 参考スコア(独自算出の注目度): 2.752817022620644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auto-regressive token generation in large language models is memory-bound because it requires "attending to" key and value tensors (KV cache) of all previous tokens. Prior work aims to improve the efficiency of this decode process by batching multiple requests together, and maximizing batch size subject to GPU memory constraints. The key observation of our work is that with prefix-sharing workloads, smaller, prefix-homogeneous batches -- where all requests share a common prefix -- can achieve higher decode throughput than larger, heterogeneous batches, due to better spatial and temporal locality during KV cache accesses. However, prefix-aware schedulers in state-of-the-art inference engines maximize prefix reuse within a batch only to reduce KV cache memory footprint, but do not stop batch formation at smaller homogeneous batches that could have performed better. Further, we show that shared prefix detection in existing schedulers relies on radix-tree traversals, incurring substantial CPU overhead that is often comparable to GPU execution time. This paper presents Feather, a prefix-aware scheduler that uses reinforcement learning (RL) to learn the optimal tradeoff between batch size and prefix homogeneity. We also introduce Chunked Hash Tree (CHT), a lightweight data structure that enables fast prefix detection and efficient request selection for the RL scheduler, avoiding expensive tree traversals. We integrate Feather into vLLM and SGLang, and our evaluation shows that Feather achieves 2--10$\times$ higher end-to-end throughput as compared to existing schedulers, while doing no worse than the status quo when the workload does not have enough prefix sharing. Feather achieves these gains by reducing the total number of KV cache accesses, surpassing the performance of prefix-aware attention kernels that have the same goal.
- Abstract(参考訳): 大規模言語モデルにおける自動回帰トークン生成は、すべての以前のトークンのキーと値テンソル(KVキャッシュ)を必要とするため、メモリバウンドである。
以前の作業は、複数のリクエストをまとめてバッチ化し、GPUメモリ制約によるバッチサイズを最大化することで、このデコードプロセスの効率を改善することを目的としていた。
私たちの作業における重要な観察は、プレフィックス共有ワークロードでは、KVキャッシュアクセス時の空間的および時間的局所性の向上により、すべてのリクエストが共通のプレフィックスを共有するような、より小さなプレフィックス均質なバッチが、より大きな異種バッチよりも高いデコードスループットを達成できるということです。
しかし、最先端推論エンジンのプレフィックス対応スケジューラは、KVキャッシュメモリのフットプリントを減らすためだけにバッチ内でプレフィックスの再利用を最大化するが、より優れた性能を持つより小さな同種バッチでのバッチ生成を止めることはできない。
さらに、既存のスケジューラにおける共有プレフィックス検出は、Radix-treeトラバーサルに依存しており、GPUの実行時間に匹敵するCPUオーバーヘッドが発生することを示す。
本稿では、強化学習(RL)を用いて、バッチサイズとプレフィックス均質との間の最適なトレードオフを学習するプレフィックス対応スケジューラであるFeatherを提案する。
また、高速プレフィックス検出とRLスケジューラの効率的な要求選択を可能にする軽量データ構造であるChunked Hash Tree (CHT)を導入し、高額なツリートラバースを回避する。
We integrate Feather into vLLM and SGLang, and our evaluation shows that Feather achieves 2--10$\times$ higher end-to-end throughput than existing schedulers, while did no worse than the status quo if the workload have enough prefix sharing。
また、KVキャッシュアクセスの総数を減らし、同じ目標を持つプレフィックス対応アテンションカーネルのパフォーマンスを上回り、これらのゲインを達成する。
関連論文リスト
- PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching [2.392066774757727]
大規模言語モデル(LLM)は、幅広い情報処理や管理タスクにおいて、ますます重要な役割を担っている。
これらのタスクは通常プレフィックス共有の特徴を示し、異なるプロンプト入力は共通プレフィックスを部分的に示すことができる。
既存のソリューションでは、リクエスト間の共通プレフィックスのKVコンテキストを再利用するために、LRUベースのキャッシュを使用している。
上記の問題に対処するため,BatchLLMを提案する。
論文 参考訳(メタデータ) (2024-11-29T05:57:37Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。