論文の概要: TokenFlow: Responsive LLM Text Streaming Serving under Request Burst via Preemptive Scheduling
- arxiv url: http://arxiv.org/abs/2510.02758v1
- Date: Fri, 03 Oct 2025 06:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.287161
- Title: TokenFlow: Responsive LLM Text Streaming Serving under Request Burst via Preemptive Scheduling
- Title(参考訳): TokenFlow: プリエンプティブスケジューリングによるリクエストバースト下での応答型LLMテキストストリーミング
- Authors: Junyi Chen, Chuheng Du, Renyuan Liu, Shuochao Yao, Dingtian Yan, Jiang Liao, Shengzhong Liu, Fan Wu, Guihai Chen,
- Abstract要約: TokenFlowは、プリエンプティブな要求スケジューリングとアクティブなキーバリューキャッシュ管理を通じて、テキストストリーミング性能を向上した、新しいテキストストリーミングシステムである。
TokenFlowは、トークン全体のスループットを低下させることなく、P99 TTFTを最大80.2%削減しながら、82.5%の効率的なスループット(実際のユーザ消費を計る)を達成することを示す。
- 参考スコア(独自算出の注目度): 27.580464061533565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time LLM interactions demand streamed token generations, where text tokens are progressively generated and delivered to users while balancing two objectives: responsiveness (i.e., low time-to-first-token) and steady generation (i.e.,required time-between-tokens). Standard LLM serving systems suffer from the inflexibility caused by non-preemptive request scheduling and reactive memory management, leading to poor resource utilization and low request processing parallelism under request bursts. Therefore, we present TokenFlow, a novel LLM serving system with enhanced text streaming performance via preemptive request scheduling and proactive key-value (KV) cache management. TokenFlow dynamically prioritizes requests based on real-time token buffer occupancy and token consumption rate, while actively transferring KV cache between GPU and CPU memory in the background and overlapping I/O with computation to minimize request preemption overhead. Extensive experiments on Llama3-8B and Qwen2.5-32B across multiple GPUs (RTX 4090, A6000, H200) demonstrate that TokenFlow achieves up to 82.5% higher effective throughput (accounting for actual user consumption) while reducing P99 TTFT by up to 80.2%, without degrading overall token throughput.
- Abstract(参考訳): リアルタイムLLMインタラクションはトークン生成をストリーム化し、そこではテキストトークンが徐々に生成され、ユーザに配信され、応答性(低時間から第一のトークン)と安定した生成(要求される時間間トークン)という2つの目標のバランスをとる。
標準LLMサービスシステムは、非プリエンプティブな要求スケジューリングとリアクティブメモリ管理によって生じる柔軟性に悩まされ、リソース利用の低さと要求バースト時の要求処理の並列性に繋がる。
そこで本研究では,プリエンプティブ要求スケジューリングとアクティブキー値(KV)キャッシュ管理により,テキストストリーミング性能を向上した新しいLLMサービスシステムであるTokenFlowを提案する。
TokenFlowは、リアルタイムトークンバッファ占有率とトークン消費率に基づいて要求を動的に優先順位付けすると同時に、バックグラウンドでGPUとCPUメモリ間でKVキャッシュを積極的に転送し、リクエストプリエンプションオーバーヘッドを最小限に抑えるために計算でI/Oをオーバーラップする。
複数のGPU(RTX 4090, A6000, H200)にまたがるLlama3-8BとQwen2.5-32Bの大規模な実験では、トークン全体のスループットを低下させることなく、P99 TTFTを最大80.2%削減し、TokenFlowは82.5%高い効率のスループット(実際のユーザ消費を計る)を達成した。
関連論文リスト
- Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation [32.62031120968721]
本稿では,プロンプトトークンのプリフィル計算(FLOP)を削減することを目的とした,新しいモデル変換および蒸留手法であるSwiftKVを提案する。
SwiftKVは、後のレイヤのKVキャッシュを以前のレイヤの出力を使ってプリフィルし、プロンプトトークンが後層のレイヤをスキップできるようにする。
Llama-3.1-70B の 16K トークン/s に変換される正規化推論スループットの 560 TFlops/GPU を実現することができる。
論文 参考訳(メタデータ) (2024-10-04T22:45:26Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。