Fugu-MT 論文翻訳(概要): ZenFlow: Enabling Stall-Free Offloading Training via Asynchronous Updates

論文の概要: ZenFlow: Enabling Stall-Free Offloading Training via Asynchronous Updates

arxiv url: http://arxiv.org/abs/2505.12242v2
Date: Tue, 20 May 2025 18:37:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 13:19:52.322083
Title: ZenFlow: Enabling Stall-Free Offloading Training via Asynchronous Updates
Title（参考訳）: ZenFlow: 非同期アップデートによるストールフリーのオフロードトレーニングの実現
Authors: Tingfeng Lan, Yusen Wu, Bin Ma, Zhaoyuan Su, Rui Yang, Tekin Bicer, Dong Li, Yue Cheng,
Abstract要約: ZeRO-Offloadのような既存のオフロードトレーニングフレームワークは、すべてのパラメータを均等に扱い、CPU上で完全なモデルを更新する。我々は、重要なパラメータを優先し、GPUとCPU間の更新を分離する新しいオフロードフレームワークであるZenFlowを紹介する。
参考スコア（独自算出の注目度）: 9.41069266286783
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning large language models (LLMs) often exceeds GPU memory limits, prompting systems to offload model states to CPU memory. However, existing offloaded training frameworks like ZeRO-Offload treat all parameters equally and update the full model on the CPU, causing severe GPU stalls, where fast, expensive GPUs sit idle waiting for slow CPU updates and limited-bandwidth PCIe transfers. We present ZenFlow, a new offloading framework that prioritizes important parameters and decouples updates between GPU and CPU. ZenFlow performs in-place updates of important gradients on GPU, while asynchronously offloading and accumulating less important ones on CPU, fully overlapping CPU work with GPU computation. To scale across GPUs, ZenFlow introduces a lightweight gradient selection method that exploits a novel spatial and temporal locality property of important gradients, avoiding costly global synchronization. ZenFlow achieves up to 5x end-to-end speedup, 2x lower PCIe traffic, and reduces GPU stalls by over 85 percent, all while preserving accuracy.
Abstract（参考訳）: 微調整の大型言語モデル(LLM)は、しばしばGPUメモリ限界を超え、システムはモデルステートをCPUメモリにオフロードする。しかし、ZeRO-Offloadのような既存のオフロードトレーニングフレームワークは、すべてのパラメータを均等に扱い、CPU上で完全なモデルを更新する。我々は、重要なパラメータを優先し、GPUとCPU間の更新を分離する新しいオフロードフレームワークであるZenFlowを紹介する。 ZenFlowはGPU上の重要な勾配をその場で更新し、非同期にオフロードし、CPU上であまり重要でないものを蓄積する。 GPUをまたいでスケールするために、ZenFlowは、重要な勾配の空間的および時間的局所性を利用した軽量な勾配選択法を導入し、コストのかかるグローバル同期を回避する。 ZenFlowは、エンドツーエンドのスピードアップを最大5倍、PCIeトラフィックを2倍削減し、GPUストールを85%以上削減し、正確性を保っている。

関連論文リスト

HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文参考訳（メタデータ） (2025-07-03T20:20:33Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。 KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文参考訳（メタデータ） (2024-11-26T04:03:14Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文参考訳（メタデータ） (2024-06-24T01:56:12Z)
MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文参考訳（メタデータ） (2024-04-07T04:56:58Z)
PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。 PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文参考訳（メタデータ） (2023-10-26T19:46:11Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
Heterogeneous Acceleration Pipeline for Recommendation System Training [1.8457649813040096]
レコメンデーションモデルは、ディープラーニングネットワークと大規模な埋め込みテーブルに依存している。これらのモデルは一般的に、ハイブリッドGPUまたはGPUのみの設定を使用してトレーニングされる。本稿ではヘテロジニアスなCPUアクセラレーションパイプラインであるHotlineを紹介する。
論文参考訳（メタデータ） (2022-04-11T23:10:41Z)
AxoNN: An asynchronous, message-driven parallel framework for extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文参考訳（メタデータ） (2021-10-25T14:43:36Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文参考訳（メタデータ） (2021-01-25T22:34:06Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。