論文の概要: AGGC: Adaptive Group Gradient Clipping for Stabilizing Large Language Model Training
- arxiv url: http://arxiv.org/abs/2601.11864v1
- Date: Sat, 17 Jan 2026 01:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.346872
- Title: AGGC: Adaptive Group Gradient Clipping for Stabilizing Large Language Model Training
- Title(参考訳): AGGC: 大規模言語モデルのトレーニングを安定化するための適応型グループグラディエントクリッピング
- Authors: Zhiyuan Li, Yuan Wu, Yi Chang,
- Abstract要約: 大規模言語モデル(LLM)の安定化のための適応型グループワイド・グラディエント・クリッピング(AGGC)を提案する。
AGGCは、時間依存のスケジューリング機構を使用しながら、爆発と消滅を同時に行う適応間隔を構築する。
LLaMA 2-7B、Mistral-7B、Gemma-7Bの実験では、AGGCはロラより一貫して優れ、フルファインチューニングを上回ることが示されている。
- 参考スコア(独自算出の注目度): 23.07765612308513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To stabilize the training of Large Language Models (LLMs), gradient clipping is a nearly ubiquitous heuristic used to alleviate exploding gradients. However, traditional global norm clipping erroneously presupposes gradient homogeneity across different functional modules, leading to an adverse "spill-over" effect where volatile parameters force unnecessary scaling on stable ones. To overcome this, we propose Adaptive Group-wise Gradient Clipping (AGGC). AGGC partitions parameters into groups based on functional types and regulates each according to its historical behavior using an Exponential Moving Average (EMA). Specifically, it constructs an adaptive interval to simultaneously mitigate gradient explosion and vanishing, while employing a time-dependent scheduling mechanism to balance exploration and convergence. Experiments on LLaMA 2-7B, Mistral-7B, and Gemma-7B models show that AGGC consistently outperforms LoRA and frequently surpasses Full Fine-Tuning. On the GSM8K benchmark, Mistral-7B fine-tuned with AGGC achieves an accuracy of 72.93%, exceeding LoRA's 69.5%. AGGC also effectively stabilizes Reinforcement Learning with Verifiable Rewards (RLVR), enhancing the logic deduction of Qwen 2.5 and Llama 3.2 models. Experimental results demonstrate that AGGC effectively addresses the limitations of traditional gradient clipping methods, particularly in overcoming gradient heterogeneity, by utilizing a modular, adaptive clipping strategy to stabilize the training process. Due to its lightweight design, AGGC can be seamlessly integrated into existing post-training pipelines with negligible overhead.
- Abstract(参考訳): LLM(Large Language Models)のトレーニングを安定させるために、勾配クリッピングは爆発的な勾配を緩和するために使われるほぼユビキタスなヒューリスティックである。
しかし、伝統的なグローバルノルムクリッピングは、異なる汎関数加群をまたいだ勾配の均一性を誤って前提としており、揮発性パラメータが安定な加群に対して不要なスケーリングを強制する悪い「スパイルオーバー」効果をもたらす。
これを解決するために,Adaptive Group-wise Gradient Clipping (AGGC)を提案する。
AGGCは、関数型に基づいてパラメータをグループに分割し、Exponential moving Average (EMA)を使用して、その歴史的な振る舞いに従って各パラメータを規制する。
具体的には、勾配の爆発と消滅を同時に緩和する適応間隔を構築し、探査と収束のバランスをとるために時間依存のスケジューリング機構を用いる。
LLaMA 2-7B、Mistral-7B、Gemma-7Bの実験では、AGGCはロラより一貫して優れ、フルファインチューニングを上回ることが示されている。
GSM8Kベンチマークでは、AGGCで微調整されたMistral-7Bの精度は72.93%で、LoRAの69.5%を超えている。
AGGCはまた、RLVR(Reinforcement Learning with Verifiable Rewards)を効果的に安定化させ、Qwen 2.5とLlama 3.2モデルの論理推論を強化した。
実験結果から, AGGCは従来の勾配クリッピング法,特に勾配不均一性を克服する上で, トレーニングプロセスの安定化に適応的なクリッピング戦略を用いて効果的に対処できることが示唆された。
軽量な設計のため、AGGCは既存のトレーニング後のパイプラインにシームレスに統合でき、オーバーヘッドは無視できる。
関連論文リスト
- Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models [27.774067682004745]
GISP-Global Iterative Structured Pruningは、ブロックワイド正規化により、構造レベルで集約された1次、損失ベースの重要な重み付けを用いて、注目ヘッドとチャネルを除去する。
反復的なスケジュールは、ワンショットプルーニングではなく、高い間隔で精度を安定させ、中間微調整を必要とせず、パープレキシティの崩壊を緩和する。
重要度はモデルレベルの損失によって定義されるため、GISPはタスク固有の目的を自然にサポートしている。
論文 参考訳(メタデータ) (2025-10-20T19:04:09Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文 参考訳(メタデータ) (2025-06-01T15:30:37Z) - LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization [16.360816770124874]
LoRA-MGPO は Momentum-Guided Perurbation Optimization (MGPO) を組み込んだフレームワークである。
MGPOは勾配状態から運動量ベクトルを誘導する運動力学を安定化させる。
実験の結果, LoRA-MGPO は LoRA や他のPEFT 法よりも優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-02-20T13:14:41Z) - AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Byzantine-Robust Learning on Heterogeneous Data via Gradient Splitting [58.91947205027892]
フェデレーテッド・ラーニングはビザンツの攻撃に対する脆弱性を示している。
ビザンティン攻撃者は、任意の勾配を中央サーバに送ることで、グローバルモデルの収束と性能を破壊することができる。
アグレゲーション・ルール(AGR)は、ビザンツの攻撃から守るために提案されている。
論文 参考訳(メタデータ) (2023-02-13T03:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。