Fugu-MT 論文翻訳(概要): A Minimalist Optimizer Design for LLM Pretraining

論文の概要: A Minimalist Optimizer Design for LLM Pretraining

arxiv url: http://arxiv.org/abs/2506.16659v1
Date: Fri, 20 Jun 2025 00:10:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.297021
Title: A Minimalist Optimizer Design for LLM Pretraining
Title（参考訳）: LLMプレトレーニングのためのミニマリスト最適化器の設計
Authors: Athanasios Glentis, Jiaxiang Li, Andi Han, Mingyi Hong,
Abstract要約: 大規模言語モデルのトレーニングは通常、Adamのような適応型に依存します。 GaLore FiraやAPOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮型を提案した。本研究では,LLMプレトレーニングにおける最先端性能を維持するために本当に必要となる,最小限の状態量について検討する。
参考スコア（独自算出の注目度）: 31.996047271119156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training large language models (LLMs) typically relies on adaptive optimizers such as Adam, which require significant memory to maintain first- and second-moment matrices, known as optimizer states. While recent works such as GaLore, Fira, and APOLLO have proposed state-compressed variants to reduce memory consumption, a fundamental question remains: What is the minimal amount of optimizer state that is truly necessary to retain state-of-the-art performance in LLM pretraining? In this work, we systematically investigate this question using a bottom-up approach. We find that two memory- and compute-efficient optimization techniques are particularly effective: (1) column-wise gradient normalization significantly boosts the performance of plain SGD without requiring momentum; and (2) adding first-order momentum only to the output layer - where gradient variance is highest - yields performance competitive with fully adaptive methods such as Muon. Based on these insights, we propose SCALE (Stochastic Column-normalized Last-layer Momentum), a new optimizer that combines column-normalized SGD with last-layer momentum, where column normalization refers to normalizing the gradient along the output dimension. Across multiple LLaMA models (60M-1B), SCALE matches or exceeds the performance of Adam while using only 35-45% of the total memory. It also consistently outperforms memory-efficient optimizers such as GaLore, Fira, and APOLLO, making it a strong candidate for large-scale pretraining under memory constraints. For the LLaMA 7B model, SCALE outperforms the state-of-the-art method APOLLO in terms of both perplexity and memory consumption. In addition, our method serves as a minimalist baseline for more sophisticated optimizer design.
Abstract（参考訳）: 大規模言語モデル(LLM)のトレーニングは通常、最適化状態として知られる第1および第2モーメント行列を維持するためにかなりのメモリを必要とするAdamのような適応最適化子に依存している。 GaLore、Fira、APOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮された変種を提案したが、根本的な疑問が残る。本研究では,ボトムアップ手法を用いて,この問題を体系的に検討する。 1)カラムワイド勾配正規化はモーメントを必要とせずにプレーンSGDの性能を大幅に向上させ,(2)勾配分散が最も高い出力層のみに1次運動量を加えることで,Muonのような完全適応手法と競合する性能を得る。これらの知見に基づいて、カラム正規化SGDと最終層運動量を組み合わせた新しい最適化器であるSCALE(Stochastic Column-normalized Last-layer Momentum)を提案する。複数のLLaMAモデル(60M-1B)にまたがって、SCALEは合計メモリの35-45%しか使用せず、Adamのパフォーマンスと一致または上回っている。また、GaLore、Fira、APOLLOなどのメモリ効率の最適化も一貫して上回っており、メモリ制約下での大規模事前トレーニングの候補として強い。 LLaMA 7Bモデルでは、SCALEは難易度とメモリ消費の両方の観点から最先端のAPOLLOよりも優れている。さらに,本手法はより洗練されたオプティマイザ設計のための最小限のベースラインとして機能する。

関連論文リスト

Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
SVD-Free Low-Rank Adaptive Gradient Optimization for Large Language Models [37.60342078872549]
低次元空間へのSVDに基づく勾配投影を近似するための2段階の手順を提案する。事前学習と微調整の両方に関する実験は、我々の二重戦略の有効性を実証している。
論文参考訳（メタデータ） (2025-05-23T14:37:00Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Gradient Multi-Normalization for Stateless and Scalable LLM Training [16.037614012166063]
大規模言語モデル(LLM)のトレーニングは通常、コンバージェンスを加速するために追加のステート情報を格納するAdamのようなアダプティブに依存している。 SWAN (Ma et al., 2024) のような最近の取り組みは、状態の必要性を排除し、瞬時勾配に適用したマルチステップ前処理手順により、Adamに匹敵する性能を達成することでこの問題に対処している。複数の基準に従って勾配を正規化するステートレス勾配を設計するための新しいフレームワークを導入する。最大10億のパラメータを持つ事前学習LLaMAモデルの実験は、Adamよりも3倍のスピードアップを示し、メモリ要求を大幅に削減し、他のメモリ効率のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-10T18:09:53Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。