論文の概要: ZClip: Adaptive Spike Mitigation for LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2504.02507v1
- Date: Thu, 03 Apr 2025 11:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:06.303625
- Title: ZClip: Adaptive Spike Mitigation for LLM Pre-Training
- Title(参考訳): ZClip: LLM事前トレーニングのための適応型スパイク緩和
- Authors: Abhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングには、勾配不安定性や損失スパイクなど、数多くの課題がある。
定数法やノルム法のような従来の勾配クリッピング技術は、これらの問題に効果的に対処できない。
本研究では,時間とともに勾配規範の統計的特性に基づいてクリッピング閾値を動的に調整する適応的勾配クリッピングアルゴリズムZClipを提案する。
- 参考スコア(独自算出の注目度): 0.3574867616159909
- License:
- Abstract: Training large language models (LLMs) presents numerous challenges, including gradient instability and loss spikes. These phenomena can lead to catastrophic divergence, requiring costly checkpoint restoration and data batch skipping. Traditional gradient clipping techniques, such as constant or norm-based methods, fail to address these issues effectively due to their reliance on fixed thresholds or heuristics, leading to inefficient learning and requiring frequent manual intervention. In this work, we propose ZClip, an adaptive gradient clipping algorithm that dynamically adjusts the clipping threshold based on statistical properties of gradient norms over time. Unlike prior reactive strategies, ZClip proactively adapts to training dynamics without making any prior assumptions on the scale and the temporal evolution of gradient norms. At its core, it leverages z-score-based anomaly detection to identify and mitigate large gradient spikes, preventing malignant loss spikes while not interfering with convergence otherwise. Our code is available at: https://github.com/bluorion-com/ZClip.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングには、勾配不安定性や損失スパイクなど、数多くの課題がある。
これらの現象は破滅的な分岐を引き起こし、高価なチェックポイントの復元とデータバッチのスキップを必要とします。
定数法やノルム法のような従来の勾配クリッピング技術は、一定のしきい値やヒューリスティックに依存しているため、これらの問題に効果的に対処できず、非効率な学習と頻繁な手作業による介入が要求される。
本研究では、時間とともに勾配ノルムの統計的特性に基づいてクリッピング閾値を動的に調整する適応的勾配クリッピングアルゴリズムZClipを提案する。
従来の反応戦略とは異なり、ZClipはスケールや勾配ノルムの時間的進化を前提とせずに、トレーニング力学に積極的に適応する。
コアでは、zスコアベースの異常検出を活用して、大きな勾配スパイクを識別し緩和し、悪性の損失スパイクを防ぎ、それ以外の収束と干渉しない。
私たちのコードは、https://github.com/bluorion-com/ZClip.comで利用可能です。
関連論文リスト
- To Clip or not to Clip: the Dynamics of SGD with Gradient Clipping in High-Dimensions [6.653325043862049]
ストリーミングSGDにおける最小二乗問題における勾配クリッピングについて検討した。
ガウスノイズクリッピングではSGD性能が向上しないことを示す。
クリッピングしきい値のほぼ最適なスケジューリング法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:50:22Z) - Careful with that Scalpel: Improving Gradient Surgery with an EMA [30.8976309525556]
簡単な和以上の勾配をブレンドすることで、パフォーマンスを向上させる方法を示す。
我々は,我々の手法であるBloopが,NLPおよび視覚実験において,より優れた性能を実現することを実証した。
論文 参考訳(メタデータ) (2024-02-05T13:37:00Z) - One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文 参考訳(メタデータ) (2024-01-30T05:42:54Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - DPSUR: Accelerating Differentially Private Stochastic Gradient Descent
Using Selective Update and Release [29.765896801370612]
本稿では,Selective Updates and Releaseに基づく差分プライベートトレーニングフレームワークを提案する。
主な課題は、プライバシに関する懸念と、モデル更新のための勾配選択戦略の2つの側面にある。
MNIST,FMNIST, CIFAR-10, IMDBデータセットを用いて行った実験により, DPSURは収束速度において従来よりも大幅に優れていたことがわかった。
論文 参考訳(メタデータ) (2023-11-23T15:19:30Z) - Point Cloud Denoising via Momentum Ascent in Gradient Fields [72.93429911044903]
ニューラルネットワークを用いて雑音点雲から勾配場を推定する勾配法を提案した。
そこで我々は, 過去の反復情報を利用して, 点の軌道を決定する運動量勾配上昇法を開発した。
実験により, 提案手法は, 様々な点群, ノイズタイプ, 騒音レベルを有する最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-21T10:21:40Z) - SDGMNet: Statistic-based Dynamic Gradient Modulation for Local
Descriptor Learning [44.69439245287881]
本稿では,局所記述子学習における三重項損失を改善するためにSDGMNetという動的勾配変調を提案する。
本稿では,一般的な三重項に基づく損失のバック伝播に関する深い解析を行い,距離測定のための包含角度を導入する。
我々の新しい記述子は、パッチ検証、マッチング、検索タスクを含む標準ベンチマークにおける過去の最先端技術を上回っている。
論文 参考訳(メタデータ) (2021-06-08T15:10:31Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。