Fugu-MT 論文翻訳(概要): ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory

論文の概要: ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory

arxiv url: http://arxiv.org/abs/2503.12668v1
Date: Sun, 16 Mar 2025 21:58:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:58.034253
Title: ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory
Title（参考訳）: ZO2:GPUメモリを限定した超大規模言語モデルのためのスケーラブルゼロ階ファインチューニング
Authors: Liangyu Wang, Jie Ren, Hang Xu, Junxiao Wang, Huanyi Xie, David E. Keyes, Di Wang,
Abstract要約: 限られたGPUメモリしか持たないLLMの高効率ゼロオーダー微調整のための新しいフレームワークZO2を提案する。我々のフレームワークは、CPUとGPU間のデータ交換を合理化するAMPモードにおける革新的な低ビット精度アプローチをサポートしている。
参考スコア（独自算出の注目度）: 29.245719403159615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning large pre-trained LLMs generally demands extensive GPU memory. Traditional first-order optimizers like SGD encounter substantial difficulties due to increased memory requirements from storing activations and gradients during both the forward and backward phases as the model size expands. Alternatively, zeroth-order (ZO) techniques can compute gradients using just forward operations, eliminating the need to store activations. Furthermore, by leveraging CPU capabilities, it's feasible to enhance both the memory and processing power available to a single GPU. We propose a novel framework, ZO2 (Zeroth-Order Offloading), for efficient zeroth-order fine-tuning of LLMs with only limited GPU memory. Our framework dynamically shifts model parameters between the CPU and GPU as required, optimizing computation flow and maximizing GPU usage by minimizing downtime. This integration of parameter adjustments with ZO's double forward operations reduces unnecessary data movement, enhancing the fine-tuning efficacy. Additionally, our framework supports an innovative low-bit precision approach in AMP mode to streamline data exchanges between the CPU and GPU. Employing this approach allows us to fine-tune extraordinarily large models, such as the OPT-175B with more than 175 billion parameters, on a mere 18GB GPU--achievements beyond the reach of traditional methods. Moreover, our framework achieves these results with almost no additional time overhead and absolutely no accuracy loss compared to standard zeroth-order methods. ZO2's code has been open-sourced in https://github.com/liangyuwang/zo2.
Abstract（参考訳）: 微調整された大型LLMは一般的に広範囲のGPUメモリを必要とする。 SGDのような従来のファーストオーダーオプティマイザは、モデルサイズが拡大するにつれて、前と後の両方のフェーズでアクティベーションと勾配を格納するメモリ要求が増加するため、かなりの困難に直面する。あるいは、ゼロオーダー(ZO)技術は、単にフォワード演算を使って勾配を計算することができ、アクティベーションを保存する必要がなくなる。さらに、CPU機能を活用することで、単一のGPUで利用可能なメモリと処理能力の両方を強化することが可能になります。限られたGPUメモリしか持たないLLMのゼロオーダー微調整のための新しいフレームワークZO2(Zeroth-Order Offloading)を提案する。我々のフレームワークは、必要に応じてCPUとGPUの間でモデルパラメータを動的にシフトし、計算フローを最適化し、ダウンタイムを最小化してGPU使用量を最大化する。このパラメータ調整とZOのダブルフォワード操作の統合により、不要なデータ移動が減少し、微調整の有効性が向上する。さらに,我々のフレームワークは,CPUとGPU間のデータ交換を合理化するAMPモードで,革新的な低ビット精度アプローチをサポートしている。このアプローチを利用することで、従来のメソッドの範囲を超えて、わずか18GBのGPU処理で、1750億以上のパラメータを持つOPT-175Bのような超大型モデルを微調整することが可能になります。さらに,本フレームワークは,従来のゼロオーダー法と比較して,時間的オーバーヘッドがほとんどなく,精度の低下もまったくなく,これらの結果を達成する。 ZO2のコードはhttps://github.com/liangyuwang/zo2でオープンソース化された。

関連論文リスト

Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。 LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文参考訳（メタデータ） (2025-07-03T22:53:34Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文参考訳（メタデータ） (2024-06-14T16:59:11Z)
Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文参考訳（メタデータ） (2024-06-04T17:50:34Z)
HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy [55.17502828915191]
本稿では,各学習段階におけるパラメータのサブセットのみを更新する,新しい非独立なエンドツーエンドの階層的微調整戦略であるHiFTを提案する。この結果から,HiFTはパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を達成できることが示された。
論文参考訳（メタデータ） (2024-01-26T21:14:32Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。