論文の概要: 10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training
- arxiv url: http://arxiv.org/abs/2511.14124v1
- Date: Tue, 18 Nov 2025 04:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.930779
- Title: 10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training
- Title(参考訳): 10Cache: LLMトレーニングのための異種資源対応テンソルキャッシングとマイグレーション
- Authors: Sabiha Afroz, Redwan Ibne Seraj Khan, Hadeel Albahar, Jingoo Han, Ali R. Butt,
- Abstract要約: クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。
リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを,GPU,CPU,ティア間でメモリ使用量をインテリジェントに調整することで,トレーニングを高速化する。
トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍に改善し、CPU/GPUメモリ使用率を最大2.15倍と1.33倍に向上させる。
- 参考スコア(独自算出の注目度): 0.22913283036871865
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training large language models (LLMs) in the cloud faces growing memory bottlenecks due to the limited capacity and high cost of GPUs. While GPU memory offloading to CPU and NVMe has made large-scale training more feasible, existing approaches suffer from high tensor migration latency and suboptimal device memory utilization, ultimately increasing training time and cloud costs. To address these challenges, we present 10Cache, a resource-aware tensor caching and migration system that accelerates LLM training by intelligently coordinating memory usage across GPU, CPU, and NVMe tiers. 10Cache profiles tensor execution order to construct prefetch policies, allocates memory buffers in pinned memory based on tensor size distributions, and reuses memory buffers to minimize allocation overhead. Designed for cloud-scale deployments, 10Cache improves memory efficiency and reduces reliance on high-end GPUs. Across diverse LLM workloads, it achieves up to 2x speedup in training time, improves GPU cache hit rate by up to 86.6x, and increases CPU/GPU memory utilization by up to 2.15x and 1.33x, respectively, compared to state-of-the-art offloading methods. These results demonstrate that 10Cache is a practical and scalable solution for optimizing LLM training throughput and resource efficiency in cloud environments.
- Abstract(参考訳): クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。
GPUメモリをCPUやNVMeにオフロードすることで、大規模なトレーニングがより実現可能になったが、既存のアプローチでは、テンソルマイグレーションのレイテンシが高く、デバイスメモリ以下の使用が困難になり、最終的にトレーニング時間とクラウドコストが増加する。
これらの課題に対処するために、リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを紹介し、GPU、CPU、NVMe層間でメモリ使用量をインテリジェントに調整することで、LCMトレーニングを高速化する。
10Cacheは、プレフェッチポリシーを構築するためにテンソル実行順序を指定し、テンソルサイズ分布に基づいてピントメモリにメモリバッファを割り当て、メモリバッファを再利用し、割り当てオーバーヘッドを最小限にする。
クラウドスケールのデプロイメント用に設計された10Cacheは、メモリ効率を改善し、ハイエンドGPUへの依存を減らす。
トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍改善し、最先端のオフロード方法と比較してCPU/GPUメモリ使用率を最大2.15倍、CPU/GPUメモリ使用率を最大1.33倍向上させる。
これらの結果から,10CacheはLLMトレーニングスループットとクラウド環境におけるリソース効率を最適化するための,実用的でスケーラブルなソリューションであることが示された。
関連論文リスト
- Reducing GPU Memory Fragmentation via Spatio-Temporal Planning for Efficient Large-Scale Model Training [9.775731832789116]
本稿では,ディープラーニングフレームワークのためのGPUメモリアレータSTWeaverを紹介し,メモリ割り当て動作の時間的規則性を利用してフラグメンテーションを低減する。
プラグPyTorchとして開発されたSTWeaverは、密度とスパースモデルの両方で平均79.2%(最大100%)のフラグメンテーション比を、無視できるオーバーヘッドで減少させる。
論文 参考訳(メタデータ) (2025-07-22T06:39:07Z) - Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage [9.106167012987747]
TERAIOは低コストPCIeベースのソリッドステートドライブ(SSD)を用いたGPUメモリ拡張のためのフレームワーク
その設計は、各大規模言語反復訓練プロセスにおいて、アクティブテンソルが割り当てられたGPUメモリのごく一部(平均1.7%)しか取らないという我々の観察によって進められている。
TERAIO は様々な LLM のトレーニング性能を平均 1.47 倍改善し,理想性能の 80.7% を達成している。
論文 参考訳(メタデータ) (2025-06-06T18:57:20Z) - Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。
本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards [1.7733623930581417]
パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
論文 参考訳(メタデータ) (2022-05-10T07:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。