論文の概要: SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips
- arxiv url: http://arxiv.org/abs/2601.20309v1
- Date: Wed, 28 Jan 2026 07:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.80902
- Title: SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips
- Title(参考訳): SuperInfer:スーパーチップ上でのLPM推論のためのSLO対応ロータリースケジューリングとメモリ管理
- Authors: Jiahuan Yu, Mingtao Hu, Zichao Lin, Minjia Zhang,
- Abstract要約: 新興スーパーチップ(NVIDIA GH200など)向けに設計された高性能大型モデル(LLM)推論システムであるSuperInferを提案する。
SuperInferは、最初のプロアクティブなSLOawareロータリスケジューラであるRotaSchedを導入し、Superchipsの応答性を維持するためにリクエストをローテーションする。
SuperInfer は TTFT SLO 達成率を 74.7% まで改善し,TBT とスループットを最先端システムと比較した。
- 参考スコア(独自算出の注目度): 13.816966749411037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) serving faces a fundamental tension between stringent latency Service Level Objectives (SLOs) and limited GPU memory capacity. When high request rates exhaust the KV cache budget, existing LLM inference systems often suffer severe head-of-line (HOL) blocking. While prior work explored PCIe-based offloading, these approaches cannot sustain responsiveness under high request rates, often failing to meet tight Time-To-First-Token (TTFT) and Time-Between-Tokens (TBT) SLOs. We present SuperInfer, a high-performance LLM inference system designed for emerging Superchips (e.g., NVIDIA GH200) with tightly coupled GPU-CPU architecture via NVLink-C2C. SuperInfer introduces RotaSched, the first proactive, SLO-aware rotary scheduler that rotates requests to maintain responsiveness on Superchips, and DuplexKV, an optimized rotation engine that enables full-duplex transfer over NVLink-C2C. Evaluations on GH200 using various models and datasets show that SuperInfer improves TTFT SLO attainment rates by up to 74.7% while maintaining comparable TBT and throughput compared to state-of-the-art systems, demonstrating that SLO-aware scheduling and memory co-design unlocks the full potential of Superchips for responsive LLM serving.
- Abstract(参考訳): 大規模言語モデル(LLM)は、厳格なレイテンシーサービスレベルオブジェクト(SLO)と限られたGPUメモリ容量の間の根本的な緊張に直面します。
高要求率がKVキャッシュの予算を消費すると、既存のLLM推論システムは厳しいヘッド・オブ・ライン(HOL)ブロッキングに悩まされる。
以前の研究ではPCIeベースのオフロードについて検討していたが、これらの手法は高い要求率で応答性を維持することができず、しばしばタイトなTTFT (Time-To-First-Token) とTBT (Time-Between-Tokens) SLO (Time-Between-Tokens) を満たすことができない。
我々は,NVLink-C2Cを介してGPU-CPUアーキテクチャを密結合した,新興スーパーチップ(NVIDIA GH200など)を対象とした高性能LLM推論システムであるSuperInferを提案する。
SuperInferは、Superchips上で応答性を維持するためにリクエストをローテーションする最初のプロアクティブなSLO対応ローテーションスケジューラであるRotaSchedと、NVLink-C2C上で全二重転送を可能にする最適化されたローテーションエンジンであるDuplexKVを紹介する。
様々なモデルとデータセットを用いたGH200の評価によると、SuperInferはTTFT SLOの達成率を最大74.7%改善し、最先端のシステムと比較してTBTとスループットを維持している。
関連論文リスト
- InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。
ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-10-13T12:41:27Z) - VoltanaLLM: Feedback-Driven Frequency Control and State-Space Routing for Energy-Efficient LLM Serving [13.494819588196371]
VoltanaLLMは、エネルギー効率の高いLarge Language Model(LLM)を提供するシステムである。
出現するプリフィル/デコード分離アーキテクチャにおける周波数スケーリングとリクエストルーティングを共同設計する。
ほぼ完全なSLO達成率を維持しながら、最大36.3%の省エネを実現している。
論文 参考訳(メタデータ) (2025-09-05T05:58:16Z) - HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling [19.154782641360253]
現代の大規模言語モデル(LLM)が提供するシステムは、さまざまな長さ、優先順位、ステージ固有のサービスレベル目標(SLO)を持つ、高度に可変的な要求からの課題に直面している。
我々は,複数のSLO下でのスケジューリングとスケーリングを協調的に最適化するために,アルゴリズムとシステムレベルのイノベーションを統合した統一LLMサービスシステムHyperFlexisを提案する。
論文 参考訳(メタデータ) (2025-08-21T18:40:20Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。
本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。
提案手法の有効性を数値解析により検証した。
論文 参考訳(メタデータ) (2024-11-04T17:48:02Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。