論文の概要: Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers
- arxiv url: http://arxiv.org/abs/2605.13784v1
- Date: Wed, 13 May 2026 17:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.196681
- Title: Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers
- Title(参考訳): 注意:ステートフルトランスフォーマーによる効率的なストリーミング推論
- Authors: Victor Norgren,
- Abstract要約: Flash Queriesは、データ到着間のアイドルサイクルを再利用し、登録された質問を事前に評価し、ユーザが尋ねる前にキャッシュされた回答を返す。
セル予算の受け入れとプレフィックスを意識したグループプレフィルを備えたマルチテナント連続バッチスケジューラは、数十のステートフルセッションを1つのGPU上で共存させることができる。
ストリーミング市場データベンチマークでは、参照実装は従来の推論エンジンよりも最大5.9倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional transformer inference engines are request-driven, paying an O(n) prefill cost on every query. In streaming workloads, where data arrives continuously and queries probe an ever-growing context, this cost is prohibitive. We introduce a data-driven computational model centred on stateful sessions: a persistent KV cache advanced incrementally as new data arrives, so prefill is moved off the critical path and query latency becomes O(|q|), independent of accumulated context size. Building on this, Flash Queries reclaim idle GPU cycles between data arrivals to pre-evaluate registered questions and return cached answers before the user asks, a pattern that is structurally impossible in stateless engines because they discard intermediate state between requests. A multi-tenant continuous-batching scheduler with cell-budget admission and prefix-aware grouped prefill lets dozens of stateful sessions coexist on a single GPU while preserving full quadratic self-attention. On streaming market-data benchmarks the reference implementation achieves up to 5.9x speedup over conventional inference engines (vLLM, SGLang, TensorRT-LLM, llama.cpp), holding query latency constant as accumulated context grows.
- Abstract(参考訳): 従来のトランスフォーマー推論エンジンは要求駆動であり、クエリ毎にO(n)プリフィルコストを支払う。
データが継続的に到着し、クエリが継続的に増加するコンテキストを調査するストリーミングワークロードでは、このコストは禁じられている。
我々は、ステートフルセッションを中心としたデータ駆動型計算モデルを導入する: 永続的なKVキャッシュは、新しいデータが到着するにつれて漸進的に進化するので、プリフィルはクリティカルパスから移動され、クエリレイテンシは、蓄積されたコンテキストサイズに依存しないO(|q|)になる。
これに基づいて、Flash Queriesは、データ到着間のアイドルGPUサイクルを再利用して、登録された質問を事前に評価し、ユーザが尋ねる前にキャッシュされた回答を返す。
セル予算の受け入れとプレフィックスを意識したグループプレフィルを備えたマルチテナント連続バッチスケジューラにより、数十のステートフルセッションが1つのGPU上で共存し、完全な二次的な自己アテンションを維持することができる。
ストリーミング市場データベンチマークでは、参照実装は従来の推論エンジン(vLLM、SGLang、TensorRT-LLM、llama.cpp)よりも最大5.9倍のスピードアップを達成する。
関連論文リスト
- Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - Don't Pause! Every prediction matters in a streaming video [55.509551643600794]
一般的なストリーミング知覚とアシスト機能を評価するマルチターンプロアクティブクエリを特徴とするSPOT-Benchを提案する。
SPOT-BenchにはTimeliness-F1が付属している。
i)オフラインモデルは、確実にイベントを検知するが、スパム予測は失敗する; (ii) サイレントをトレーニングした後、スパムを減らし、応答を低下させる; (iii) ストリーミングビデオの半分は応答を期待しない。
論文 参考訳(メタデータ) (2026-04-27T11:07:03Z) - Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT) [2.8350851063316873]
ストリーミングコンテキスト – 推論による重なり合う検索 – は、このレイテンシを軽減することができる。
本稿では,ストリーミング対応LLMサービスシステムStream2LLMについて述べる。
論文 参考訳(メタデータ) (2026-03-29T06:49:12Z) - Asynchronous Verified Semantic Caching for Tiered LLM Architectures [0.7204795910838664]
大規模言語モデル(LLM)は、現在、検索、補助、エージェントの重要な経路にある。
オンラインに集約された動的キャッシュによってバックアップされたログから収集された、キュレートされたオフラインのベットされたレスポンスの静的キャッシュ。
textbfKritesは非同期のLCM-judgedキャッシュポリシで、サービス決定を変更することなく静的カバレッジを拡張する。
論文 参考訳(メタデータ) (2026-02-13T18:25:00Z) - LiveVectorLake: A Real-Time Versioned Knowledge Base Architecture for Streaming Vector Updates and Temporal Retrieval [0.0]
LivevusLakeは2階層の時間的知識ベースアーキテクチャで、現在の知識をリアルタイムにセマンティック検索できる。
システムは、コンプライアンス、監査可能性、ポイント・イン・タイム検索のための完全なバージョン履歴を維持している。
論文 参考訳(メタデータ) (2025-11-24T11:15:39Z) - DeepCoT: Deep Continual Transformers for Real-Time Inference on Data Streams [63.27233749591346]
トランスフォーマーベースのモデルは、ますます複雑なタスクに取り組むために、そのサイズとパラメータ数を劇的に増加させてきた。
ストリームデータ推論は通常、スライディング時間ウィンドウ上で実行され、非常に冗長な計算に繋がる。
提案するDeep Continual Transformer(DeepCoT)は冗長性のないエンコーダのみのモデルであり,最小限の変更で既存のディープエンコーダアーキテクチャに適用できる。
論文 参考訳(メタデータ) (2025-11-21T16:15:43Z) - AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding [35.10915929939651]
テストタイムスケーリング(TTS)は長いチェーン・オブ・シント(CoT)を介してLCM推論を促進する
KV-cache成長は、LLMデコーディングのメモリバウンドボトルネックを増幅する。
2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
論文 参考訳(メタデータ) (2025-10-08T19:36:11Z) - Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models [0.0]
Reactive Transformer(RxT)は、データ駆動のパラダイムからイベント駆動のパラダイムに移行することで制限を克服するように設計された、新しいアーキテクチャである。
RxTは、各会話ターンを離散イベントとしてリアルタイムに処理し、統合された短期記憶(STM)システムでコンテキストを維持する。
我々はRxTが低レイテンシを実現し、真にリアルタイム、ステートフル、経済的に実行可能なロングフォームな会話を可能にすることを示す。
論文 参考訳(メタデータ) (2025-10-03T23:18:07Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Session-Aware Query Auto-completion using Extreme Multi-label Ranking [61.753713147852125]
本稿では,セッション対応クエリ自動補完の新たな手法を,XMR(Multi Multi-Xtreme Ranking)問題として取り上げる。
アルゴリズムのキーステップにいくつかの修正を提案することにより、この目的のために一般的なXMRアルゴリズムを適応させる。
当社のアプローチは、セッション情報を活用しながら、自動補完システムの厳しいレイテンシ要件を満たします。
論文 参考訳(メタデータ) (2020-12-09T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。