論文の概要: 10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training
- arxiv url: http://arxiv.org/abs/2511.14124v1
- Date: Tue, 18 Nov 2025 04:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.930779
- Title: 10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training
- Title(参考訳): 10Cache: LLMトレーニングのための異種資源対応テンソルキャッシングとマイグレーション
- Authors: Sabiha Afroz, Redwan Ibne Seraj Khan, Hadeel Albahar, Jingoo Han, Ali R. Butt,
- Abstract要約: クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。
リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを,GPU,CPU,ティア間でメモリ使用量をインテリジェントに調整することで,トレーニングを高速化する。
トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍に改善し、CPU/GPUメモリ使用率を最大2.15倍と1.33倍に向上させる。
- 参考スコア(独自算出の注目度): 0.22913283036871865
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training large language models (LLMs) in the cloud faces growing memory bottlenecks due to the limited capacity and high cost of GPUs. While GPU memory offloading to CPU and NVMe has made large-scale training more feasible, existing approaches suffer from high tensor migration latency and suboptimal device memory utilization, ultimately increasing training time and cloud costs. To address these challenges, we present 10Cache, a resource-aware tensor caching and migration system that accelerates LLM training by intelligently coordinating memory usage across GPU, CPU, and NVMe tiers. 10Cache profiles tensor execution order to construct prefetch policies, allocates memory buffers in pinned memory based on tensor size distributions, and reuses memory buffers to minimize allocation overhead. Designed for cloud-scale deployments, 10Cache improves memory efficiency and reduces reliance on high-end GPUs. Across diverse LLM workloads, it achieves up to 2x speedup in training time, improves GPU cache hit rate by up to 86.6x, and increases CPU/GPU memory utilization by up to 2.15x and 1.33x, respectively, compared to state-of-the-art offloading methods. These results demonstrate that 10Cache is a practical and scalable solution for optimizing LLM training throughput and resource efficiency in cloud environments.
- Abstract(参考訳): クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。
GPUメモリをCPUやNVMeにオフロードすることで、大規模なトレーニングがより実現可能になったが、既存のアプローチでは、テンソルマイグレーションのレイテンシが高く、デバイスメモリ以下の使用が困難になり、最終的にトレーニング時間とクラウドコストが増加する。
これらの課題に対処するために、リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを紹介し、GPU、CPU、NVMe層間でメモリ使用量をインテリジェントに調整することで、LCMトレーニングを高速化する。
10Cacheは、プレフェッチポリシーを構築するためにテンソル実行順序を指定し、テンソルサイズ分布に基づいてピントメモリにメモリバッファを割り当て、メモリバッファを再利用し、割り当てオーバーヘッドを最小限にする。
クラウドスケールのデプロイメント用に設計された10Cacheは、メモリ効率を改善し、ハイエンドGPUへの依存を減らす。
トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍改善し、最先端のオフロード方法と比較してCPU/GPUメモリ使用率を最大2.15倍、CPU/GPUメモリ使用率を最大1.33倍向上させる。
これらの結果から,10CacheはLLMトレーニングスループットとクラウド環境におけるリソース効率を最適化するための,実用的でスケーラブルなソリューションであることが示された。
関連論文リスト
- Horizon-LM: A RAM-Centric Architecture for LLM Training [26.927410607740025]
Horizon-LMは、大規模なモデル最適化のためにCPUとGPUの役割を再定義するメモリ中心のトレーニングシステムである。
1.5,TBのホストRAMを持つ1つのH200 GPU上で、Horizon-LMは120Bパラメータまでのモデルを確実にトレーニングする。
標準的なシングルA100マシンでは、Horizon-LMはCPUオフロードのDeepSpeed ZeRO-3よりも最大12.2$timesのトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2026-02-04T18:04:46Z) - Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Harvest: Opportunistic Peer-to-Peer GPU Caching for LLM Inference [0.0]
LLM(Large Language Model)推論は、計算スループットよりもGPUメモリ容量に制限されている。
本稿では,高帯域幅のピアツーピアGPU相互接続を利用したGPUキャッシュ管理フレームワークであるHarvestを紹介する。
本研究では、Harvestを用いて2つの広く使われている推論コンポーネントの検索を高速化することにより、2倍以上のスループットの大幅な高速化を示す。
論文 参考訳(メタデータ) (2026-01-30T21:29:04Z) - Reducing GPU Memory Fragmentation via Spatio-Temporal Planning for Efficient Large-Scale Model Training [9.775731832789116]
本稿では,ディープラーニングフレームワークのためのGPUメモリアレータSTWeaverを紹介し,メモリ割り当て動作の時間的規則性を利用してフラグメンテーションを低減する。
プラグPyTorchとして開発されたSTWeaverは、密度とスパースモデルの両方で平均79.2%(最大100%)のフラグメンテーション比を、無視できるオーバーヘッドで減少させる。
論文 参考訳(メタデータ) (2025-07-22T06:39:07Z) - Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage [9.106167012987747]
TERAIOは低コストPCIeベースのソリッドステートドライブ(SSD)を用いたGPUメモリ拡張のためのフレームワーク
その設計は、各大規模言語反復訓練プロセスにおいて、アクティブテンソルが割り当てられたGPUメモリのごく一部(平均1.7%)しか取らないという我々の観察によって進められている。
TERAIO は様々な LLM のトレーニング性能を平均 1.47 倍改善し,理想性能の 80.7% を達成している。
論文 参考訳(メタデータ) (2025-06-06T18:57:20Z) - Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。
本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference [47.043257902725294]
本研究では, 圧縮率が高く, 減圧オーバーヘッドの少ない非ゼロ値に対して, 刈り取られたLLM重みの非構造スパースパターンを圧縮する新しいスパース形式を提案する。
一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。
論文 参考訳(メタデータ) (2024-06-17T15:55:08Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards [1.7733623930581417]
パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
論文 参考訳(メタデータ) (2022-05-10T07:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。