論文の概要: The Model Parking Tax: Quantifying the Hidden Energy Cost of Always-On GPU Model Deployment
- arxiv url: http://arxiv.org/abs/2605.23918v1
- Date: Wed, 15 Apr 2026 09:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.464775
- Title: The Model Parking Tax: Quantifying the Hidden Energy Cost of Always-On GPU Model Deployment
- Title(参考訳): モデル駐車税:GPUモデル展開における隠れたエネルギーコストの定量化
- Authors: Sai Sathvik Vadari,
- Abstract要約: AI産業は、コールドスタートのレイテンシを回避するために、メモリにロードされたモデルを時計の周りに保持する。
しかし、このコストの構造は経験的に分解されることはなかった。
VRAMアロケーションの関数として、アイドルGPUパワーを初めてクロスアーキテクチャで測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The AI inference industry keeps models loaded in GPU memory around the clock to avoid cold-start latency, implicitly treating idle power as a fixed cost of readiness. Yet the structure of this cost has never been empirically decomposed - and never across GPU architectures. We present the first cross-architecture measurement of idle GPU power as a function of VRAM allocation, combining 18 days of production telemetry (335,267 samples, 14 H100 GPUs) with controlled dose-response experiments on three GPU architectures spanning three memory technologies: NVIDIA H100 (HBM3, 80 GB), A100 (HBM2e, 80 GB), and L40S (GDDR6, 48 GB). We observe that idle power is piecewise constant on all three architectures: the CUDA context forces a discrete DVFS transition consuming +26-66 W over bare idle (26-50 W on HBM architectures, 66 W on GDDR6), while the marginal VRAM effect is bounded below measurement relevance ($|β| < 0.02$ W/GB) on every device tested. The CUDA context accounts for >98% of the parking tax regardless of memory technology. We validate this finding with a real HuggingFace model (Qwen2.5-7B) on all three architectures, confirming <0.5 W difference from empty tensors on every device, and capture cold-start power profiles during model loading. We derive a cold-start breakeven model showing energy-optimal behavior depends on request arrival rate and loading latency - not model size - with breakeven intervals of 1-5 minutes. Our results identify a constraint consistent across all tested architectures: idle-with-context power is determined by DVFS state, not memory occupancy.
- Abstract(参考訳): AI推論業界は、コールドスタートレイテンシを回避するために、GPUメモリにロードされたモデルを時計の周りに保持し、アイドルパワーを一定の準備コストとして暗黙的に扱う。
しかし、このコストの構造は経験的に分解されることはない。
VRAMアロケーションの関数としてのアイドルGPUパワーの初めてのクロスアーキテクチャ測定を行い、生産テレメトリ(335,267サンプル、14 H100GPU)とNVIDIA H100(HBM3, 80 GB)、A100(HBM2e, 80 GB)、L40S(GDDR6, 48 GB)の3つのメモリ技術にまたがる3つのGPUアーキテクチャに対する制御線量応答実験を組み合わせた。
CUDAコンテキストは、単体アイドル上でのDVFS遷移+26-66W(HBMアーキテクチャでは26-50W、GDDR6では66W)を消費する。
CUDAコンテキストは、メモリ技術に関係なく、駐車税の98%を占める。
実HugingFaceモデル(Qwen2.5-7B)を3つのアーキテクチャすべてで検証し、各デバイス上の空のテンソルと0.5W差を確認し、モデルローディング時のコールドスタートパワープロファイルをキャプチャする。
エネルギー・最適動作を示すコールドスタートブレーカーモデルを,1~5分間隔で,要求到着率とロード遅延に依存する。
Idle-with-context power is determined by DVFS state, not memory cupancy。
関連論文リスト
- FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention [77.12062766962815]
Lookahead Sparse Attention (LSA)は、DeepSeek-V4アーキテクチャ上に構築されたNeural Memory Indexerを利用している。
このアーキテクチャをバックボーンフリーの非結合なトレーニング戦略でインスタンス化する。
FM-DS-V4は、物理KVキャッシュのフットプリントを、フルコンテキストベースラインのわずか13.5%まで圧縮することを示した。
論文 参考訳(メタデータ) (2026-06-08T06:25:54Z) - OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models [1.1011268090482575]
自律運転のためのビジョンランゲージ・アクション(VLA)モデルは、単一ニューラルネットワークにおける知覚、推論、制御を統一する。
本稿では,VRAM制約付きGPU上でメモリ効率のよいVLA推論を実現するフレームワークを提案する。
私たちの作業は、完全なBF16精度を維持しながら、Accelerateのオフロードよりも最大3.55倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2026-05-12T07:37:10Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU [10.811837575220814]
ドメイン適応には細調整の大型言語モデル(LLM)が不可欠だが、そのメモリ集約性はほとんどのGPUの能力を超えている。
単GPU環境向けに設計された新しいシステムであるSlideFormerを紹介する。
GPUをスライディングウィンドウとして扱い、GPUをCPU更新とマルチ層I/Oでオーバーラップする軽量非同期エンジン。
論文 参考訳(メタデータ) (2026-03-17T12:05:17Z) - Light-Weight Benchmarks Reveal the Hidden Hardware Cost of Zero-Shot Tabular Foundation Models [0.0]
テスト精度を,4つの公開データセット上でのウォールクロックレイテンシ,ピークCPURAM,ピークGPUVRAMとともに報告する。
2つのオープンFM(TabPFN-1.0とTabICL-base)を1つのNVIDIA T4 GPU上で調整されたXGBoost、LightGBM、ランダムフォレストベースラインと比較する。
ツリーアンサンブルは、0 VRAMを使用して、0.40 s = 150 MB RAMでフルテストバッチを完了しながら、3つのデータセットでFM精度を同等または超過する。
論文 参考訳(メタデータ) (2025-11-30T13:17:08Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。