論文の概要: Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start
- arxiv url: http://arxiv.org/abs/2604.06664v1
- Date: Wed, 08 Apr 2026 04:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.334951
- Title: Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start
- Title(参考訳): Foundry: コールドスタートを早めるためのテンプレートベースのCUDAグラフコンテキストのマテリアル化
- Authors: Xueshen Liu, Yongji Wu, Yuncheng Yao, Danyang Zhuo, Ion Stoica, Z. Morley Mao,
- Abstract要約: コールドスタートのレイテンシは、現代のLLMサービスプロバイダにとって依然として大きなボトルネックである。
既存のアプローチは脆いカーネル固有のパッチや実行可能なプロセスコンテキストに依存している。
本稿では、グラフトポロジと実行コンテキストの両方を永続化する、Foundryテンプレートベースのグラフ実体化システムを提案する。
- 参考スコア(独自算出の注目度): 33.16822047715293
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern LLM service providers increasingly rely on autoscaling and parallelism reconfiguration to respond to rapidly changing workloads, but cold-start latency remains a major bottleneck. While recent systems have reduced model weight loading to seconds, CUDA graph capture still takes tens of seconds to minutes and often dominates startup. Unfortunately, CUDA graphs cannot be naively serialized: beyond graph topology, they are tightly coupled to execution context, including device addresses embedded in kernel arguments and kernel code lazily loaded during warmup. Existing approaches either rely on brittle kernel-specific patching or heavyweight process-level checkpoint/restore that are inflexible to dynamic parallelism switching. We present Foundry, a template-based CUDA graph context materialization system that persists both graph topology and execution context during an offline processing stage, and reconstructs executable graphs online with negligible overhead. Foundry enforces deterministic memory layouts, automatically extracts and reloads kernel binaries required by captured graphs, and reduces online reconstruction costs through topology-based templating. For distributed serving, Foundry further enables a single-GPU offline capture to generate templates for multi-GPU deployments by patching only rank-dependent communication state. Across dense and MoE models up to 235B parameters, Foundry reduces cold-start latency by up to 99%, cutting the initialization time of Qwen3-235B-A22B from 10 minutes to 3.9 seconds while preserving the throughput gains of CUDA graphs.
- Abstract(参考訳): 現代のLLMサービスプロバイダは、急速に変化するワークロードに対応するために、自動スケーリングと並列処理の再設定にますます依存していますが、コールドスタートのレイテンシは大きなボトルネックのままです。
最近のシステムはモデルの重み付けを秒に減らしているが、CUDAグラフキャプチャはそれでも数秒から数分で起動し、多くの場合はスタートアップを支配している。
グラフトポロジ以外にも、カーネル引数に埋め込まれたデバイスアドレスやウォームアップ中に遅延ロードされたカーネルコードなど、実行コンテキストに強く結びついている。
既存のアプローチでは、脆いカーネル固有のパッチや、動的並列性スイッチングに柔軟性のない重厚なプロセスレベルのチェックポイント/リストアに依存している。
本稿では,オフライン処理段階におけるグラフトポロジと実行コンテキストの両方を永続化するテンプレートベースのCUDAグラフコンテキスト実体化システムであるFoundryについて述べる。
Foundryは決定論的メモリレイアウトを強制し、キャプチャされたグラフに必要なカーネルバイナリを自動的に抽出および再ロードし、トポロジベースのテンプレートによるオンライン再構築コストを削減する。
分散サービスのために、Foundryはさらに、シングルGPUのオフラインキャプチャを可能にし、ランク依存の通信状態にのみパッチを当てることで、マルチGPUデプロイメント用のテンプレートを生成する。
密度とMoEのモデル全体では235Bのパラメータで、Foundryはコールドスタート遅延を最大99%削減し、Qwen3-235B-A22Bの初期化時間を10分から3.9秒に短縮し、CUDAグラフのスループット向上を保存する。
関連論文リスト
- S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction [57.07346645250984]
Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2026-03-15T05:48:55Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。
オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。
DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文 参考訳(メタデータ) (2025-03-18T06:49:51Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - DOTIN: Dropping Task-Irrelevant Nodes for GNNs [119.17997089267124]
最近のグラフ学習アプローチでは、学習のためのグラフのサイズを減らすためのプール戦略が導入されている。
我々はDOTIN(underlineDrunderlineopping underlineTask-underlineIrrelevant underlineNodes)と呼ばれる新しいアプローチを設計し、グラフのサイズを減らす。
本手法は,グラフ分類やグラフ編集距離を含むグラフレベルのタスクにおいて,GATを約50%高速化する。
論文 参考訳(メタデータ) (2022-04-28T12:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。