Fugu-MT 論文翻訳(概要): AdaGC: Improving Training Stability for Large Language Model Pretraining

論文の概要: AdaGC: Improving Training Stability for Large Language Model Pretraining

arxiv url: http://arxiv.org/abs/2502.11034v1
Date: Sun, 16 Feb 2025 08:13:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.810922
Title: AdaGC: Improving Training Stability for Large Language Model Pretraining
Title（参考訳）: AdaGC: 大規模言語モデルの事前トレーニングのためのトレーニング安定性の改善
Authors: Guoxia Wang, Shuai Li, Congliang Chen, Jinle Zeng, Jiabin Yang, Tao Sun, Yanjun Ma, Dianhai Yu, Li Shen,
Abstract要約: 大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
参考スコア（独自算出の注目度）: 18.163318397205533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) face increasing loss spikes during scaling, undermining training stability and final performance. While gradient clipping mitigates this issue, traditional global approaches poorly handle parameter-specific gradient variations and decaying gradient norms. We propose **AdaGC**, an adaptive gradient clipping framework that automatically adjusts local thresholds per parameter through exponential moving average of gradient norms. Theoretical analysis proves AdaGC's convergence under non-convex conditions. Extensive experiments demonstrate significant improvements: On Llama-2 7B/13B, AdaGC completely eliminates loss spikes while reducing WikiText perplexity by 3.5% (+0.14pp LAMBADA accuracy) for 7B and achieving 0.65% lower training loss with 1.47% reduced validation perplexity for 13B compared to global clipping. For CLIP ViT-Base, AdaGC converges 25% faster than StableAdamW with full spike elimination. The method shows universal effectiveness across architectures (Llama-2 7B/13B) and modalities (CLIP), with successful integration into diverse optimizers like AdamW and Lion. Source code will be released on GitHub.
Abstract（参考訳）: 大規模言語モデル(LLM)は、スケーリング中に損失が増加し、トレーニングの安定性が損なわれ、最終的なパフォーマンスが低下する。勾配クリッピングはこの問題を緩和するが、従来のグローバルアプローチではパラメータ固有の勾配変動と減衰勾配ノルムが不十分である。 AdaGC**は、勾配ノルムの指数的移動平均によってパラメータごとの局所閾値を自動的に調整する適応的勾配クリッピングフレームワークである。理論的解析は、非凸条件下でのAdaGCの収束を証明している。 Llama-2 7B/13Bでは、AdaGCは7BのWikiTextパープレキシティを3.5%(+0.14pp LAMBADA精度)削減し、13Bの検証パープレキシティを1.47%削減した。 CLIP ViT-Baseでは、AdaGCはフルスパイク除去でStableAdamWよりも25%高速に収束する。この手法はアーキテクチャ全体(Llama-2 7B/13B)とモダリティ(CLIP)の普遍的な有効性を示し、AdamWやLionのような多様なオプティマイザとの統合に成功している。ソースコードはGitHubでリリースされる。

関連論文リスト

AGGC: Adaptive Group Gradient Clipping for Stabilizing Large Language Model Training [23.07765612308513]
大規模言語モデル(LLM)の安定化のための適応型グループワイド・グラディエント・クリッピング(AGGC)を提案する。 AGGCは、時間依存のスケジューリング機構を使用しながら、爆発と消滅を同時に行う適応間隔を構築する。 LLaMA 2-7B、Mistral-7B、Gemma-7Bの実験では、AGGCはロラより一貫して優れ、フルファインチューニングを上回ることが示されている。
論文参考訳（メタデータ） (2026-01-17T01:11:07Z)
Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints [14.20716202034732]
LLM(Large Language Models)の完全な微調整は、メモリ集約性で悪名高い。 GradLiteは、正確な勾配の要求を緩和する後方フレンドリーなソリューションである。我々はGradLiteが有界な分散を伴う不偏推定を維持し、Adamに匹敵する収束率を保証することを示す。
論文参考訳（メタデータ） (2025-10-26T00:50:12Z)
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning [0.9861588522527782]
RLDPはDP最適化自体を近代的な深層強化学習(RL)に対応可能な閉ループ制御問題とみなす最初のフレームワークである。 GPT2-small、Llama-1B、Llama-3B、Mistral-7Bの1,600以上の実験で、RDDPは1.3-3.0.5%のパープレキシティ低減と平均5.6%のダウンストリームユーティリティゲインを実現している。
論文参考訳（メタデータ） (2025-07-30T10:46:53Z)
ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。 ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文参考訳（メタデータ） (2025-07-06T16:23:07Z)
Orthogonal Gradient Descent Improves Neural Calibration [0.0]
OnAR-10には10%のラベル付きデータがあり、$perp$Gradは精度でSGDと一致するが、キャリブレーションの指標は一貫して改善されている。これらの利点は、入力破損(CIFAR-10C)と拡張トレーニングの下で継続され、$perp$GradモデルはSGDで訓練されたモデルよりも優雅に分解される。
論文参考訳（メタデータ） (2025-06-04T22:12:46Z)
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam [94.00189300897694]
低ビット精度は感度学習率を増幅し、しばしば不安定な勾配ノルムを引き起こす。本研究では, 勾配正規化とクリッピングを併用したスタブルSPAMを提案する。実験により,Stable-SPAMは4ビットトレーニングの勾配ノルムを効果的に安定化し,AdamやSPAMよりも優れた性能を実現することが示された。
論文参考訳（メタデータ） (2025-02-24T11:09:15Z)
GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。 GAQATフレームワークの有効性を実験により検証した。
論文参考訳（メタデータ） (2024-12-07T06:07:21Z)
Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for large-scale optimization [1.6749379740049926]
そこで我々は,F-CMA,F-Controlled Mini-batchアルゴリズムを導入し,各エポックあたりの損失低減を確保するために,十分な減少条件とライン探索手順を備えたランダムリシャッフル法を提案する。テストでは、トレーニング時間全体の68%の削減、エポック毎の効率の最大20%向上、モデル精度の最大5%向上など、大幅な改善が見られた。
論文参考訳（メタデータ） (2024-11-24T11:46:47Z)
PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文参考訳（メタデータ） (2024-09-25T17:56:00Z)
LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-07-05T13:01:36Z)
Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。 Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文参考訳（メタデータ） (2024-05-24T13:37:48Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文参考訳（メタデータ） (2022-11-15T19:10:12Z)
IGLU: Efficient GCN Training via Lazy Updates [17.24386142849498]
グラフ畳み込みネットワーク(GCN)は、大きな基盤となるグラフと複数のレイヤを含む多くの設定で使用されている。標準SGDベースのトレーニングは、グラフの大部分のノード埋め込みを更新する各降下ステップが終わるため、ここでは不十分である。各種GCN層における全ノードに対するフォワードパス埋め込みをキャッシュする新しいIGLU法を提案する。
論文参考訳（メタデータ） (2021-09-28T19:11:00Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Gradient Centralization: A New Optimization Technique for Deep Neural Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。 GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。 GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文参考訳（メタデータ） (2020-04-03T10:25:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。