論文の概要: Tangram: Accelerating Serverless LLM Loading through GPU Memory Reuse and Affinity
- arxiv url: http://arxiv.org/abs/2512.01357v1
- Date: Mon, 01 Dec 2025 07:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.736366
- Title: Tangram: Accelerating Serverless LLM Loading through GPU Memory Reuse and Affinity
- Title(参考訳): Tangram: GPUメモリ再利用と親和性によるサーバレスLLMロードの高速化
- Authors: Wenbin Zhu, Zhaoyan Shen, Zili Shao, Hongjun Dai, Feng Chen,
- Abstract要約: 本稿では、効率的なGPUメモリ再利用により、サーバーレス大規模言語モデルのロードを高速化する新しいシステムであるTangramを提案する。
我々は, 完全機能プロトタイプを実装し, タングラムの負荷速度を最大6.2倍に向上し, 冷間開始時のTTFTを23~55%削減する実験を行った。
- 参考スコア(独自算出の注目度): 9.05799486780744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serverless Large Language Models (LLMs) have emerged as a cost-effective solution for deploying AI services by enabling a 'pay-as-you-go' pricing model through GPU resource sharing. However, cold-start latency, especially the model loading phase, has become a critical performance bottleneck, as it scales linearly with model size and severely limits the practical deployment of large-scale LLM services. This paper presents Tangram, a novel system that accelerates Serverless LLM loading through efficient GPU memory reuse. By leveraging the unused GPU memory to retain model parameters, Tangram significantly reduces model transfer time and cold-start latency. Its design includes three key components: unified GPU memory pool for tensor-level parameter sharing across models, on-demand KV cache allocation for dynamic memory management, and GPU-affinity-aware scheduling for maximizing resource utilization. These techniques collectively address the critical challenges of inefficient memory usage and the cold-start problem in Serverless LLM platforms. We have implemented a fully functional prototype, and experiments show that Tangram achieves up to 6.2 times faster loading and reduces Time-To-First-Token (TTFT) during cold-start by 23--55% over state-of-the-art methods.
- Abstract(参考訳): サーバレス大規模言語モデル(LLM)は、GPUリソースの共有を通じて‘従量課金’の価格モデルを有効にすることで、AIサービスをデプロイするためのコスト効率の高いソリューションとして登場した。
しかし、コールドスタート遅延、特にモデルローディングフェーズは、モデルサイズと線形にスケールし、大規模LLMサービスの実用的展開を著しく制限するため、重要なパフォーマンスボトルネックとなっている。
本稿では、効率的なGPUメモリ再利用により、サーバーレスLLMローディングを高速化する新しいシステムであるTangramを提案する。
モデルパラメータを保持するために未使用のGPUメモリを活用することで、Tangramはモデル転送時間とコールドスタートレイテンシを大幅に削減する。
モデル間のテンソルレベルのパラメータ共有のための統一GPUメモリプール、動的メモリ管理のためのオンデマンドKVキャッシュアロケーション、リソース使用量の最大化のためのGPUアフィニティ対応スケジューリングである。
これらの技術は、サーバーレスLLMプラットフォームにおける非効率なメモリ使用とコールドスタートの問題にまとめて対処する。
我々は, 完全機能プロトタイプを実装し, タングラムの負荷速度を最大6.2倍に向上し, 冷間開始時のTTFTを23~55%削減する実験を行った。
関連論文リスト
- FineServe: Precision-Aware KV Slab and Two-Level Scheduling for Heterogeneous Precision LLM Serving [2.141726730716452]
FineServeは、混合精度の大規模言語モデルのための推論機能フレームワークである。
FineServeは、最先端のGPU共有システムと比較して最大2.2倍のSLO達成率と1.8倍のトークン生成スループットを実現している。
論文 参考訳(メタデータ) (2025-09-08T00:57:50Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - KunServe: Parameter-centric Memory Management for Efficient Memory Overloading Handling in LLM Serving [5.090882129969119]
本稿では、複製されたパラメータを即座にフリーな要求メモリに選択的にドロップすることで、スロットリングを扱うための最初のパラメータ中心のアプローチを提案する。
Llumnix, vLLM, InferCept などの最先端システムと比較して,sys はスロットリング中のリクエストのテールTTFTを最大72.2倍削減することを示す。
論文 参考訳(メタデータ) (2024-12-24T05:07:46Z) - Enabling Efficient Serverless Inference Serving for LLM (Large Language Model) in the Cloud [0.0]
レビューレポートでは、サーバレス推論と既存のソリューションにおけるコールドスタートレイテンシについて論じている。
大規模言語モデルのサーバーレス推論におけるコールドスタート問題に対処するために設計されたシステム。
論文 参考訳(メタデータ) (2024-11-23T22:19:37Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。