論文の概要: Efficient, VRAM-Constrained xLM Inference on Clients
- arxiv url: http://arxiv.org/abs/2604.26334v1
- Date: Wed, 29 Apr 2026 06:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.273997
- Title: Efficient, VRAM-Constrained xLM Inference on Clients
- Title(参考訳): クライアント上での効率的な VRAM 制約付き xLM 推論
- Authors: Aditya Ukarande, Deep Shekhar, Marc Blackstein, Ram Rangan,
- Abstract要約: 本稿では,ベンチマークによる新しいCPU-GPUハイブリッドスケジューリング手法であるパイプラインシャーディングを提案する。
クライアントシステム上での高密度および混合仕様(MoE)大言語モデル(LLM)のVRAM制約による効率的な推論を実現する。
本論文は2026年の第9回MLSys Conference (Industry Track)で受け入れられた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To usher in the next round of client AI innovation, there is an urgent need to enable efficient, lossless inference of high-accuracy large language models (LLMs) and vision language models (VLMs), jointly referred to as xLMs, on client systems. To address this, we present pipelined sharding, a novel, benchmark-profile-guided CPU-GPU hybrid scheduling technique to achieve efficient, VRAM-constrained inference for both dense and mixture-of-experts (MoE) LLMs. Using a combination of model sharding at the sub-layer level, CPU offloading, pipelined copy-compute, and prioritized tensor placement in VRAM, it optimizes both time-to-first-token (TTFT) and tokens per second (TPS) metrics, while flexibly adapting to system and inference conditions. For efficient, high-accuracy VLM inference, we combine pipelined sharding with a llama.cpp implementation of three well-understood prior ideas (jointly called VLMOpt), namely, vision tensor CPU offloading, flash attention, and vision and language model VRAM overlap avoidance. These enhancements are targeted at improving client xLM inference in future releases of two important NVIDIA products - the In-Game Inferencing software development kit (IGI SDK) and the Cosmos-Reason1 (CR1) physical AI reasoning VLM. Highlights from our rigorous evaluation spanning multiple models and client systems include: for interactive use, TTFT improves by up to 6.7x and TPS by up to 30x for LLMs, and CR1 inference's VRAM demand is down by 10x, while in batched mode, throughput improves by up to 8.2x, all compared to their respective aggressive baselines. This paper is accepted at the 9th MLSys Conference (Industry Track), 2026. Code and artifact available at: https://github.com/deepshnv/pipeshard-mlsys26-ae
- Abstract(参考訳): クライアントAIイノベーションの次のラウンドを補助するために、クライアントシステム上で、高精度の大規模言語モデル(LLM)とビジョン言語モデル(VLM)の効率的で損失のない推論を可能にする必要がある。
そこで本研究では,高密度・高密度・高密度のLLM(MoE)に対するVRAM制約付き推論を実現するために,ベンチマークに注目する新しいCPU-GPUハイブリッドスケジューリング手法であるパイプラインシャーディングを提案する。
サブレイヤレベルでのモデルシャーディング、CPUオフロード、パイプライン化されたコピーコンプット、VRAMにおけるテンソル配置の優先順位付けの組み合わせを使用して、システムや推論条件に柔軟に対応しつつ、TTFT(Time-to-first-token)メトリクスとトークン/秒(TPS)メトリクスの両方を最適化する。
高速かつ高精度なVLM推論のために、パイプラインシャーディングとVLMOptと呼ばれる3つのよく理解された事前アイデアのラマ.cpp実装を組み合わせる。
これらの拡張は、将来のNVIDIA製品であるIn-Game Inference Software Development Kit(IGI SDK)とCosmos-Reason1(CR1)物理AI推論VLMのクライアントxLM推論を改善することを目的としている。
複数のモデルとクライアントシステムにまたがる厳格な評価のハイライトは、インタラクティブな使用では、TTFTはLLMの最大6.7倍、TPSは最大30倍、CR1推論のVRAM需要は10倍、バッチモードではスループットは最大8.2倍改善され、それぞれ攻撃的ベースラインと比較される。
本論文は2026年の第9回MLSys Conference (Industry Track)で受け入れられた。
https://github.com/deepshnv/pipeshard-mlsys26-ae
関連論文リスト
- Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing [16.063514680699576]
MLLM(Multimodal large language model)は、3段階のパイプラインを通して視覚的理解を拡張する。
マルチモーダル前処理、特にビデオデコードがタイム・ツー・ファースト・トーケン(TTFT)を支配している
我々は、エンドツーエンドのMLLMパイプラインを共同で最適化する2つの補完設計であるFlashCodecとUnifiedServeを紹介する。
論文 参考訳(メタデータ) (2025-12-19T13:40:13Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [31.901686946969786]
Dovetailは異種デバイスの相補的特性と投機的復号化の利点を利用する推論手法である。
Dovetailは、異なるデバイス間で1.79xから10.1xまでの推論スピードアップを実現し、生成したテキストの一貫性と安定性を維持している。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。