Fugu-MT 論文翻訳(概要): Horizon-LM: A RAM-Centric Architecture for LLM Training

論文の概要: Horizon-LM: A RAM-Centric Architecture for LLM Training

arxiv url: http://arxiv.org/abs/2602.04816v2
Date: Thu, 05 Feb 2026 02:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-06 14:11:23.894615
Title: Horizon-LM: A RAM-Centric Architecture for LLM Training
Title（参考訳）: Horizon-LM: LLMトレーニングのためのRAM中心アーキテクチャ
Authors: Zhengqing Yuan, Lichao Sun, Yanfang Ye,
Abstract要約: Horizon-LMは、大規模なモデル最適化のためにCPUとGPUの役割を再定義するメモリ中心のトレーニングシステムである。 1.5,TBのホストRAMを持つ1つのH200 GPU上で、Horizon-LMは120Bパラメータまでのモデルを確実にトレーニングする。標準的なシングルA100マシンでは、Horizon-LMはCPUオフロードのDeepSpeed ZeRO-3よりも最大12.2$timesのトレーニングスループットを実現している。
参考スコア（独自算出の注目度）: 26.927410607740025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2$\times$ higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な成長は、シングルGPUハードウェアの進化を圧倒し、モデルスケールは計算よりもメモリ容量に制限されるようになった。現代のトレーニングシステムは、分散並列処理とCPUとストレージ層間のオフロードを通じてGPUメモリを拡張するが、GPUが永続的なモデルレプリカと完全なオートグレードグラフをホストするGPU中心の実行パラダイムを基本的に維持する。その結果、大規模モデルのスケーリングは、マルチGPUクラスタ、複雑な分散ランタイム、予測不可能なホストメモリ消費と密結合であり、インストラクションチューニング、アライメント、ドメイン適応といったノードスケールのポストトレーニングワークロードに対する大きな障壁を生み出します。本稿では,大規模モデル最適化のためのCPUとGPUの役割を再定義するメモリ中心トレーニングシステムHorizon-LMを提案する。 Horizon-LMは、ホストメモリを権威パラメータストアとして扱い、CPUマスタのGPUテンプレート実行モデルを通じて、GPUのみをトランジェントな計算エンジンとして使用する。永続的なGPU駐在モジュールとオートグレードグラフの排除、手動の勾配伝搬による明示的な再計算、パイプライン化された二重バッファ実行エンジンの導入により、Horizon-LMはGPUカウントからモデルスケールを分離し、メモリ使用量を理論パラメータフットプリントにバウンドする。 1.5\,TBのホストRAMを持つ1つのH200 GPU上で、Horizon-LMは120Bパラメータまでのモデルを確実にトレーニングする。標準的なシングルA100マシンでは、Horizon-LMはDeepSpeed ZeRO-3よりも最大12.2$\times$高いトレーニングスループットを実現し、CPUオフロードは数値的正確性を維持している。プラットフォームとスケール全体にわたって、Horizon-LMは高いデバイス利用率と予測可能なメモリ成長を維持し、GPUメモリではなくホストメモリがノードスケールの大規模モデルトレーニングの真の実現可能性境界を定義することを実証している。

関連論文リスト

10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training [0.22913283036871865]
クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを,GPU,CPU,ティア間でメモリ使用量をインテリジェントに調整することで,トレーニングを高速化する。トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍に改善し、CPU/GPUメモリ使用率を最大2.15倍と1.33倍に向上させる。
論文参考訳（メタデータ） (2025-11-18T04:17:44Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
Heterogeneous Acceleration Pipeline for Recommendation System Training [1.8457649813040096]
レコメンデーションモデルは、ディープラーニングネットワークと大規模な埋め込みテーブルに依存している。これらのモデルは一般的に、ハイブリッドGPUまたはGPUのみの設定を使用してトレーニングされる。本稿ではヘテロジニアスなCPUアクセラレーションパイプラインであるHotlineを紹介する。
論文参考訳（メタデータ） (2022-04-11T23:10:41Z)
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。 1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文参考訳（メタデータ） (2021-04-16T02:22:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。