論文の概要: ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory
- arxiv url: http://arxiv.org/abs/2503.12668v1
- Date: Sun, 16 Mar 2025 21:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:28:00.622193
- Title: ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory
- Title(参考訳): ZO2:GPUメモリを限定した超大規模言語モデルのためのスケーラブルゼロ階ファインチューニング
- Authors: Liangyu Wang, Jie Ren, Hang Xu, Junxiao Wang, Huanyi Xie, David E. Keyes, Di Wang,
- Abstract要約: 限られたGPUメモリしか持たないLLMの高効率ゼロオーダー微調整のための新しいフレームワークZO2を提案する。
我々のフレームワークは、CPUとGPU間のデータ交換を合理化するAMPモードにおける革新的な低ビット精度アプローチをサポートしている。
- 参考スコア(独自算出の注目度): 29.245719403159615
- License:
- Abstract: Fine-tuning large pre-trained LLMs generally demands extensive GPU memory. Traditional first-order optimizers like SGD encounter substantial difficulties due to increased memory requirements from storing activations and gradients during both the forward and backward phases as the model size expands. Alternatively, zeroth-order (ZO) techniques can compute gradients using just forward operations, eliminating the need to store activations. Furthermore, by leveraging CPU capabilities, it's feasible to enhance both the memory and processing power available to a single GPU. We propose a novel framework, ZO2 (Zeroth-Order Offloading), for efficient zeroth-order fine-tuning of LLMs with only limited GPU memory. Our framework dynamically shifts model parameters between the CPU and GPU as required, optimizing computation flow and maximizing GPU usage by minimizing downtime. This integration of parameter adjustments with ZO's double forward operations reduces unnecessary data movement, enhancing the fine-tuning efficacy. Additionally, our framework supports an innovative low-bit precision approach in AMP mode to streamline data exchanges between the CPU and GPU. Employing this approach allows us to fine-tune extraordinarily large models, such as the OPT-175B with more than 175 billion parameters, on a mere 18GB GPU--achievements beyond the reach of traditional methods. Moreover, our framework achieves these results with almost no additional time overhead and absolutely no accuracy loss compared to standard zeroth-order methods. ZO2's code has been open-sourced in https://github.com/liangyuwang/zo2.
- Abstract(参考訳): 微調整された大型LLMは一般的に広範囲のGPUメモリを必要とする。
SGDのような従来のファーストオーダーオプティマイザは、モデルサイズが拡大するにつれて、前と後の両方のフェーズでアクティベーションと勾配を格納するメモリ要求が増加するため、かなりの困難に直面する。
あるいは、ゼロオーダー(ZO)技術は、単にフォワード演算を使って勾配を計算することができ、アクティベーションを保存する必要がなくなる。
さらに、CPU機能を活用することで、単一のGPUで利用可能なメモリと処理能力の両方を強化することが可能になります。
限られたGPUメモリしか持たないLLMのゼロオーダー微調整のための新しいフレームワークZO2(Zeroth-Order Offloading)を提案する。
我々のフレームワークは、必要に応じてCPUとGPUの間でモデルパラメータを動的にシフトし、計算フローを最適化し、ダウンタイムを最小化してGPU使用量を最大化する。
このパラメータ調整とZOのダブルフォワード操作の統合により、不要なデータ移動が減少し、微調整の有効性が向上する。
さらに,我々のフレームワークは,CPUとGPU間のデータ交換を合理化するAMPモードで,革新的な低ビット精度アプローチをサポートしている。
このアプローチを利用することで、従来のメソッドの範囲を超えて、わずか18GBのGPU処理で、1750億以上のパラメータを持つOPT-175Bのような超大型モデルを微調整することが可能になります。
さらに,本フレームワークは,従来のゼロオーダー法と比較して,時間的オーバーヘッドがほとんどなく,精度の低下もまったくなく,これらの結果を達成する。
ZO2のコードはhttps://github.com/liangyuwang/zo2でオープンソース化された。
関連論文リスト
- APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z) - Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。
提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy [55.17502828915191]
本稿では,各学習段階におけるパラメータのサブセットのみを更新する,新しい非独立なエンドツーエンドの階層的微調整戦略であるHiFTを提案する。
この結果から,HiFTはパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-26T21:14:32Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。