論文の概要: Blink: CPU-Free LLM Inference by Delegating the Serving Stack to GPU and SmartNIC
- arxiv url: http://arxiv.org/abs/2604.07609v1
- Date: Wed, 08 Apr 2026 21:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.571671
- Title: Blink: CPU-Free LLM Inference by Delegating the Serving Stack to GPU and SmartNIC
- Title(参考訳): Blink:Serving StackをGPUとSmartNICに委譲するCPUフリーのLLM推論
- Authors: Mohammad Siavashi, Mariano Scazzariello, Gerald Q. Maguire, Dejan Kostić, Marco Chiesa,
- Abstract要約: 大規模言語モデル(LLM)推論は、急速にコアデータセンターサービスになりつつある。
現在のサービススタックは、オーケストレーションとトークンレベルの制御において、ホストがクリティカルパスを維持している。
我々は、ホストCPUを定常状態の推論パスから取り除くエンドツーエンドのサービスアーキテクチャであるBlinkを紹介した。
- 参考スコア(独自算出の注目度): 1.1476836276366738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) inference is rapidly becoming a core datacenter service, yet current serving stacks keep the host CPU on the critical path for orchestration and token-level control. This makes LLM performance sensitive to CPU interference, undermining application colocation and forcing operators to reserve CPU headroom, leaving substantial capacity unutilized. We introduce Blink, an end-to-end serving architecture that removes the host CPU from the steady-state inference path by redistributing responsibilities across a SmartNIC and a GPU. Blink offloads request handling to the SmartNIC, which delivers inputs directly into GPU memory via RDMA, and replaces host-driven scheduling with a persistent GPU kernel that performs batching, scheduling, and KV-cache management without CPU involvement. Evaluated against TensorRT-LLM, vLLM, and SGLang, Blink outperforms all baselines even in isolation, reducing pre-saturation P99 TTFT by up to 8.47$\times$ and P99 TPOT by up to 3.40$\times$, improving decode throughput by up to 2.1$\times$, and reducing energy per token by up to 48.6$\%$. Under CPU interference, Blink maintains stable performance, while existing systems degrade by up to two orders of magnitude.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は急速にコアデータセンタサービスになりつつあるが、現在のサービススタックは、ホストCPUをオーケストレーションとトークンレベルの制御のクリティカルパスに維持している。
これにより、LLMのパフォーマンスはCPUの干渉に敏感になり、アプリケーションのコロケーションを弱め、オペレーターにCPUヘッドルームの予約を強制する。
我々は、SmartNICとGPUで責務を再分配することによって、ホストCPUを定常的推論パスから削除する、エンドツーエンドのサービスアーキテクチャであるBlinkを紹介した。
Blinkは、RDMA経由でGPUメモリに直接入力を配信するSmartNICにリクエスト処理をオフロードし、CPUを介さずにバッチ処理、スケジューリング、KVキャッシュ管理を実行する永続的なGPUカーネルにホスト駆動のスケジューリングを置き換える。
TensorRT-LLM, vLLM, SGLang に対して評価され、Blink はプリ飽和 P99 TTFT を最大8.47$\times$ と P99 TPOT を最大3.40$\times$ に減らし、デコードスループットを最大2.1$\times$ に改善し、トークン当たりのエネルギーを最大48.6$\%$ に減らした。
CPU干渉下では、Blinkは安定した性能を維持し、既存のシステムは最大2桁まで劣化する。
関連論文リスト
- ScoutAttention: Efficient KV Cache Offloading via Layer-Ahead CPU Pre-computation for LLM Inference [31.69761251861347]
大規模言語モデルは、長いコンテキスト推論中に重要なGPUメモリ容量の制約に直面する。
我々は,GPUとCPUの協調処理によりLLM推論を高速化する新しいKVキャッシュオフロードフレームワークであるScoutAttentionを提案する。
ScoutAttentionは、新しいレイヤアヘッドCPUプリ計算アルゴリズムを備えており、CPUが1つのレイヤに前もって注意計算を開始することができる。
実験の結果、ScoutAttentionはベースラインの2.4%以内の精度を維持し、既存のオフロード方式に比べて2.1倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-03-28T05:06:05Z) - TaxBreak: Unmasking the Hidden Costs of LLM Inference Through Overhead Decomposition [0.0]
この作業では、ホスト可視のオーケストレーションオーバーヘッドを分解するトレース駆動の方法論であるTaxBreakを紹介している。
NVIDIA H100およびH200システム上でTaxBreakを検証し、提案したホストデバイスバランス指標(HDBI)を導出する。
我々は,MoEモデルが高密度モデルよりも出力トークン当たり8~11倍のカーネルをディスパッチし,ホストバウンドワークロードでは,シングルスレッド性能が1次パラメータであることを示す。
論文 参考訳(メタデータ) (2026-03-12T21:30:07Z) - ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs [50.29619653515229]
ArcLightは、マルチコアCPU向けにゼロから設計された軽量LLM推論アーキテクチャである。
ArcLightは主要なフレームワークのパフォーマンス上限を大幅に上回り、最大46%の推論スループットを実現しています。
論文 参考訳(メタデータ) (2026-03-08T19:20:25Z) - CLO: Efficient LLM Inference System with CPU-Light KVCache Offloading via Algorithm-System Co-Design [27.03446161229998]
アルゴリズム・システム共同設計によるCPUライトKVCacheオフロードシステムであるCLOを提案する。
CLOは最先端システムと同等の精度を実現し、CPUオーバーヘッドを大幅に最小化する。
論文 参考訳(メタデータ) (2025-11-18T14:03:21Z) - SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs [5.760049762453579]
大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。
オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。
我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
論文 参考訳(メタデータ) (2025-02-18T02:26:34Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。