Fugu-MT 論文翻訳(概要): SWAN: Preprocessing SGD Enables Adam-Level Performance On LLM Training With Significant Memory Reduction

論文の概要: SWAN: Preprocessing SGD Enables Adam-Level Performance On LLM Training With Significant Memory Reduction

arxiv url: http://arxiv.org/abs/2412.13148v1
Date: Tue, 17 Dec 2024 18:13:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.81431
Title: SWAN: Preprocessing SGD Enables Adam-Level Performance On LLM Training With Significant Memory Reduction
Title（参考訳）: SWAN:SGDによるLLMトレーニングにおけるAdam-Levelパフォーマンスの実現
Authors: Chao Ma, Wenbo Gong, Meyer Scetbon, Edward Meeds,
Abstract要約: SWAN (SGD with Whitening And Normalization) は言語モデル上でのAdamレベルの性能に到達するのに十分であることを示す。言語モデリングタスクでは、SWANは同じか、Adamよりも大幅に改善されている。
参考スコア（独自算出の注目度）: 16.037614012166063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive optimizers such as Adam (Kingma & Ba, 2015) have been central to the success of large language models. However, they maintain additional moving average states throughout training, which results in memory requirements several times greater than the model. This overhead imposes constraints on scalability and computational efficiency. On the other hand, while stochastic gradient descent (SGD) is optimal in terms of memory efficiency, their capability in LLM training is limited (Zhao et al., 2024b). To address this dilemma, we show that pre-processing SGD is sufficient to reach Adam-level performance on LLMs. Specifically, we propose to preprocess the instantaneous stochastic gradients with two simple operators: $\mathtt{GradNorm}$ and $\mathtt{GradWhitening}$. $\mathtt{GradNorm}$ stabilizes gradient distributions, and $\mathtt{GradWhitening}$ counteracts the local curvature of the loss landscape, respectively. This results in SWAN (SGD with Whitening And Normalization), a stochastic optimizer that eliminates the need to store any accumulative state variables. Empirically, SWAN has the same memory footprint as SGD, achieving $\approx 50\%$ reduction on total end-to-end memory compared to Adam. In language modeling tasks, SWAN demonstrates the same or even a substantial improvement over Adam. Specifically, when pre-training the LLaMa model with 350M and 1.3B parameters, SWAN achieves a 2x speedup by reaching the same evaluation perplexity in less than half tokens seen.
Abstract（参考訳）: Adam (Kingma & Ba, 2015) のような適応型オプティマイザは、大規模な言語モデルの成功の中心となっている。しかし、トレーニングを通じて移動平均状態を維持しており、結果としてメモリ要求はモデルより数倍大きい。このオーバーヘッドはスケーラビリティと計算効率に制約を課します。一方、確率勾配降下(SGD)は記憶効率の点で最適であるが、LLMトレーニングにおける能力は限られている(Zhao et al , 2024b)。このジレンマに対処するために,前処理SGDはLLM上でのAdamレベルの性能に到達するのに十分であることを示す。具体的には,2つの単純作用素,$\mathtt{GradNorm}$と$\mathtt{GradWhitening}$の即時確率勾配を前処理することを提案する。 $\matht{GradNorm}$は勾配分布を安定化させ、$\matht{GradWhitening}$は損失ランドスケープの局所曲率をそれぞれ反作用させる。この結果、SWAN(SGD with Whitening And Normalization)は、任意の累積状態変数を保存する必要をなくす確率最適化器である。 SWAN のメモリフットプリントは SGD と同じで,Adam と比較すると,完全なエンドツーエンドメモリに対する $\approx 50\% の削減を実現している。言語モデリングタスクでは、SWANは同じか、Adamよりも大幅に改善されている。具体的には、350Mと1.3BパラメータでLLaMaモデルを事前トレーニングする場合、SWANは、半分未満のトークンで同じ評価パープレキシティに達することで、2倍のスピードアップを達成する。

関連論文リスト

Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints [14.20716202034732]
LLM(Large Language Models)の完全な微調整は、メモリ集約性で悪名高い。 GradLiteは、正確な勾配の要求を緩和する後方フレンドリーなソリューションである。我々はGradLiteが有界な分散を伴う不偏推定を維持し、Adamに匹敵する収束率を保証することを示す。
論文参考訳（メタデータ） (2025-10-26T00:50:12Z)
A Minimalist Optimizer Design for LLM Pretraining [31.996047271119156]
大規模言語モデルのトレーニングは通常、Adamのような適応型に依存します。 GaLore FiraやAPOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮型を提案した。本研究では,LLMプレトレーニングにおける最先端性能を維持するために本当に必要となる,最小限の状態量について検討する。
論文参考訳（メタデータ） (2025-06-20T00:10:35Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Gradient Multi-Normalization for Stateless and Scalable LLM Training [16.037614012166063]
大規模言語モデル(LLM)のトレーニングは通常、コンバージェンスを加速するために追加のステート情報を格納するAdamのようなアダプティブに依存している。 SWAN (Ma et al., 2024) のような最近の取り組みは、状態の必要性を排除し、瞬時勾配に適用したマルチステップ前処理手順により、Adamに匹敵する性能を達成することでこの問題に対処している。複数の基準に従って勾配を正規化するステートレス勾配を設計するための新しいフレームワークを導入する。最大10億のパラメータを持つ事前学習LLaMAモデルの実験は、Adamよりも3倍のスピードアップを示し、メモリ要求を大幅に削減し、他のメモリ効率のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-10T18:09:53Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。 LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。 8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文参考訳（メタデータ） (2024-11-26T03:50:52Z)
FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文参考訳（メタデータ） (2024-11-12T14:41:07Z)
LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics [37.21593513802284]
大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。 LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
論文参考訳（メタデータ） (2024-10-21T15:31:06Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Scaling Distributed Training with Adaptive Summation [2.6210166639679]
本稿では,従来の作業よりも早く収束するAdasum(適応和)と呼ばれる勾配を結合する新しい手法を提案する。 Adasumは実装が容易で、グラデーションを要約するのと同じくらい効率的で、オープンソースのツールキットHorovodに統合されている。
論文参考訳（メタデータ） (2020-06-04T15:08:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。