Fugu-MT 論文翻訳(概要): SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training

論文の概要: SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training

arxiv url: http://arxiv.org/abs/2412.13148v3
Date: Fri, 21 Feb 2025 18:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 01:45:05.751196
Title: SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training
Title（参考訳）: SWAN:ノーマライゼーションとホワイトニングを併用したSGDによるステートレスLLMトレーニング
Authors: Chao Ma, Wenbo Gong, Meyer Scetbon, Edward Meeds,
Abstract要約: Gradient Descent(SGD)は、トレーニング中に状態変数をトラッキングしないため、ステートレスで拡張性がある。本研究では,SGDを非定常的に前処理することで,LLMのトレーニングを行うAdamと同じ性能が得られることを示す。正規化は勾配を安定化させ,損失景観の局所的な曲率に反することを示す。これによってSWAN (SGD with Whitening and Normalization) が成立し,任意の状態を保存する必要がなくなる。
参考スコア（独自算出の注目度）: 16.037614012166063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive optimizers such as Adam (Kingma & Ba, 2015) have been central to the success of large language models. However, they often require to maintain optimizer states throughout training, which can result in memory requirements several times greater than the model footprint. This overhead imposes constraints on scalability and computational efficiency. Stochastic Gradient Descent (SGD), in contrast, is a stateless optimizer, as it does not track state variables during training. Consequently, it achieves optimal memory efficiency. However, its capability in LLM training is limited (Zhao et al., 2024b). In this work, we show that pre-processing SGD in a stateless manner can achieve the same performance as the Adam optimizer for LLM training, while drastically reducing the memory cost. Specifically, we propose to pre-process the instantaneous stochastic gradients using normalization and whitening. We show that normalization stabilizes gradient distributions, and whitening counteracts the local curvature of the loss landscape. This results in SWAN (SGD with Whitening And Normalization), a stochastic optimizer that eliminates the need to store any optimizer states. Empirically, SWAN has the same memory footprint as SGD, achieving $\approx 50\%$ reduction on total end-to-end memory compared to Adam. In language modeling tasks, SWAN demonstrates comparable or even better performance than Adam: when pre-training the LLaMA model with 350M and 1.3B parameters, SWAN achieves a 2x speedup by reaching the same evaluation perplexity using half as many tokens.
Abstract（参考訳）: Adam (Kingma & Ba, 2015) のような適応型オプティマイザは、大規模な言語モデルの成功の中心となっている。しかしながら、トレーニングを通じて最適化状態を維持する必要があり、結果としてモデルのフットプリントの何倍もメモリ要件が増大する可能性がある。このオーバーヘッドはスケーラビリティと計算効率に制約を課します。対照的に、SGD(Stochastic Gradient Descent)は、トレーニング中の状態変数をトラッキングしないため、ステートレスなオプティマイザである。これにより、最適なメモリ効率が得られる。しかし、LLMトレーニングの能力は限られている(Zhao et al , 2024b)。本研究では,LLMトレーニングにおけるAdamオプティマイザと同じ性能を実現すると同時に,メモリコストを大幅に削減できることを示す。具体的には,正規化と白化を用いた瞬時確率勾配の事前処理を提案する。正規化は勾配分布を安定化させ, ホワイトニングは損失地形の局所曲率に反することを示す。この結果、SWAN(SGD with Whitening And Normalization)は、任意のオプティマイザ状態を保存する必要をなくす確率的オプティマイザである。 SWAN のメモリフットプリントは SGD と同じで,Adam と比較すると,完全なエンドツーエンドメモリに対する $\approx 50\% の削減を実現している。言語モデリングタスクでは、SWANはAdamと同等かそれ以上の性能を示している:350Mと1.3BパラメータでLLaMAモデルを事前訓練すると、SWANは半分のトークンを使って同じ評価の難易度に達することで2倍のスピードアップを達成する。

関連論文リスト

Gradient Multi-Normalization for Stateless and Scalable LLM Training [16.037614012166063]
大規模言語モデル(LLM)のトレーニングは通常、コンバージェンスを加速するために追加のステート情報を格納するAdamのようなアダプティブに依存している。 SWAN (Ma et al., 2024) のような最近の取り組みは、状態の必要性を排除し、瞬時勾配に適用したマルチステップ前処理手順により、Adamに匹敵する性能を達成することでこの問題に対処している。複数の基準に従って勾配を正規化するステートレス勾配を設計するための新しいフレームワークを導入する。最大10億のパラメータを持つ事前学習LLaMAモデルの実験は、Adamよりも3倍のスピードアップを示し、メモリ要求を大幅に削減し、他のメモリ効率のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-10T18:09:53Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。 LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。 8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文参考訳（メタデータ） (2024-11-26T03:50:52Z)
FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文参考訳（メタデータ） (2024-11-12T14:41:07Z)
LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics [37.21593513802284]
大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。 LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
論文参考訳（メタデータ） (2024-10-21T15:31:06Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Scaling Distributed Training with Adaptive Summation [2.6210166639679]
本稿では,従来の作業よりも早く収束するAdasum(適応和)と呼ばれる勾配を結合する新しい手法を提案する。 Adasumは実装が容易で、グラデーションを要約するのと同じくらい効率的で、オープンソースのツールキットHorovodに統合されている。
論文参考訳（メタデータ） (2020-06-04T15:08:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。