論文の概要: Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT)
- arxiv url: http://arxiv.org/abs/2604.16395v2
- Date: Wed, 22 Apr 2026 19:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.960387
- Title: Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT)
- Title(参考訳): Stream2LLM: コンテキストストリームのオーバーラップとTTFT(Reduced Time-to-First-Token)の準備
- Authors: Rajveer Bachkaniwala, Chengqi Luo, Richard So, Divya Mahajan, Kexin Rong,
- Abstract要約: ストリーミングコンテキスト – 推論による重なり合う検索 – は、このレイテンシを軽減することができる。
本稿では,ストリーミング対応LLMサービスシステムStream2LLMについて述べる。
- 参考スコア(独自算出の注目度): 2.8350851063316873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context retrieval systems for LLM inference face a critical challenge: high retrieval latency creates a fundamental tension between waiting for complete context (poor time-to-first-token) and proceeding without it (reduced quality). Streaming context incrementally--overlapping retrieval with inference--can mitigate this latency, but doing so with concurrent requests introduces new challenges: requests contend for GPU compute and memory, and scheduling must adapt to dynamic context arrivals. We present Stream2LLM, a streaming-aware LLM serving system for concurrent prefill-decode disaggregated deployments. Stream2LLM introduces adaptive scheduling and preemption for two distinct retrieval patterns: append-mode (progressive context accumulation) and update-mode (iterative refinement with cache invalidation). It decouples scheduling decisions from resource acquisition, enabling flexible preemption strategies guided by hardware-specific cost models, and uses longest common prefix matching to minimize redundant computation when input changes dynamically. To evaluate Stream2LLM, we collect two large-scale, real-world streaming workloads based on web crawling and approximate nearest neighbor search. Our evaluation demonstrates that streaming architecture delivers up to 11x TTFT improvements, with cost-aware scheduling providing critical benefits under memory pressure, all while maintaining throughput parity with non-streaming baselines. Code: https://github.com/rajveerb/stream2llm/tree/mlsys_artifact
- Abstract(参考訳): LLM推論のためのコンテキスト検索システムは重要な課題に直面している。高い検索レイテンシは、完全なコンテキストを待つ(時間とファーストの待ち時間)とそれなしで進む(再現された品質)の間に根本的な緊張を生じさせる。
ストリーミングコンテキストと推論による重なり合う検索は、このレイテンシを軽減することができるが、同時リクエストでは、新たな課題が発生する。
本稿では,ストリーミング対応LLMサービスシステムStream2LLMについて述べる。
Stream2LLMは、追加モード(プログレッシブコンテキストの蓄積)と更新モード(キャッシュ無効化による改善)の2つの異なる検索パターンに対して、適応的なスケジューリングとプリエンプションを導入している。
リソース取得からスケジュール決定を分離し、ハードウェア固有のコストモデルによって導かれる柔軟なプリエンプション戦略を可能にし、入力が動的に変化するときの冗長な計算を最小化するために、最長の共通プレフィックスマッチングを使用する。
Stream2LLMを評価するために,Webクローリングと近接する近接探索に基づいて,大規模で実世界のストリーミングワークロードを2つ収集する。
評価の結果,ストリーミングアーキテクチャは最大11倍のTTFT改善を実現し,コストアウェアスケジューリングはメモリプレッシャ下で重要なメリットを提供するとともに,非ストリーミングベースラインとスループットの同等性を維持していることがわかった。
コード:https://github.com/rajveerb/stream2llm/tree/mlsys_artifact
関連論文リスト
- Efficient Learned Data Compression via Dual-Stream Feature Decoupling [11.752785837648199]
本稿では,深層並列処理を浅層並列ストリームに置き換えるために,ローカルおよびグローバルコンテキストをアンハングするDual-Stream Multi-Scale Decouplerを提案する。
本手法は,低レイテンシとメモリ使用量を維持しながら,圧縮比とスループットの両面で最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-08T16:05:24Z) - Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models [14.21980212001207]
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
論文 参考訳(メタデータ) (2026-03-03T11:24:55Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling [57.708486655254966]
遅延ストリームモデリングはシーケンス対シーケンス学習のための柔軟な定式化である。
任意の入力の組み合わせから任意の出力シーケンスのストリーミング推論を提供する。
論文 参考訳(メタデータ) (2025-09-10T16:43:01Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR
Using Sequentially Sampled Chunks and Chunked Causal Convolution [10.896823447820232]
本研究では,ストリーミングASRにおけるチャンクワイド・コンバータの限界を押し上げるために,SCFormerを提案する。
我々は、End-to-End (E2E) CER 5.33%が達成できることを示す。
論文 参考訳(メタデータ) (2022-11-21T13:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。