論文の概要: GradES: Significantly Faster Training in Transformers with Gradient-Based Early Stopping
- arxiv url: http://arxiv.org/abs/2509.01842v1
- Date: Mon, 01 Sep 2025 23:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.865038
- Title: GradES: Significantly Faster Training in Transformers with Gradient-Based Early Stopping
- Title(参考訳): GradES: グラディエントベースの早期停止によるトランスフォーマーのトレーニングの高速化
- Authors: Qifu Wen, Xi Zeng, Zihan Zhou, Shuaijun Liu, Mehdi Hosseinzadeh, Reza Rawassizadeh,
- Abstract要約: 早期停止はグローバルなバリデーション損失を監視し、すべてのパラメータ更新を同時に停止する。
本研究では, 変圧器部品内で動作する新しい勾配型早期停止手法であるGradESを提案する。
- 参考スコア(独自算出の注目度): 8.77195252616558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early stopping monitors global validation loss and halts all parameter updates simultaneously, which is computationally costly for large transformers due to the extended time required for validation inference. We propose GradES, a novel gradient-based early stopping approach that operates within transformer components (attention projections and Feed-Forward layer matrices). We found that different components converge at varying rates during fine-tuning. GradES tracks the magnitude of gradients in backpropagation for these matrices during training. When a projection matrix's gradients fall below a convergence threshold $\tau$, we exclude that projection matrix from further updates individually, eliminating costly validation passes while allowing slow converging matrices to continue learning. By strategically freezing parameters when their gradients converge, GradES speeds up training time by 1.57--7.22$\times$ while simultaneously enhancing generalization through early prevention of overfitting, resulting in 1.2% higher average accuracy.
- Abstract(参考訳): 早期停止はグローバルな検証損失を監視し、全てのパラメータ更新を同時に停止する。
コンバータコンポーネント(アテンションプロジェクションとフィードフォワード層行列)内で動作可能な,勾配に基づく新しい早期停止手法であるGradESを提案する。
微調整中に異なる成分が様々な速度で収束することを発見した。
GradESはトレーニング中のこれらの行列のバックプロパゲーションにおける勾配の大きさを追跡する。
プロジェクション行列の勾配が収束しきい値の$\tau$を下回ると、プロジェクション行列は個別に更新されることを排除し、ゆっくりと収束する行列の学習を継続しながら、コストのかかる検証パスを排除します。
勾配が収束する際のパラメータを戦略的に凍結することにより、GradESはトレーニング時間を1.57--7.22$\times$で高速化し、オーバーフィッティングの早期防止による一般化を同時に強化し、平均精度が1.2%向上する。
関連論文リスト
- PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training [21.695928776150808]
アクセラレータのメモリとネットワークの制約は、大きな言語モデルをトレーニングする際の主要なボトルネックとして現れている。
PLUMAGE: Probabilistic Low rank Unbiased Minimum v Ariance Gradient Estorを提案する。
PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。
論文 参考訳(メタデータ) (2025-05-23T19:17:55Z) - Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering [36.896695278624776]
従来の分散データ-並列勾配勾配は、モデルパラメータの更新に使用されるマクロバッチを計算するために、マイクロバッチの勾配を平均化する。
本研究では,マイクログラディエント間のコサイン距離を計算し,グラディエンス分散を簡易かつ効果的に低減する手法を提案する。
従来のトレーニング手法と比較して,検証精度が最大18.2%向上するケースもある。
論文 参考訳(メタデータ) (2024-12-24T00:00:11Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Dynamically Adjusting Transformer Batch Size by Monitoring Gradient
Direction Change [69.40942736249397]
バッチサイズの増加が勾配方向に与える影響を分析する。
本稿では,勾配の安定性を角度変化で評価する。
トレーニング中の適切なバッチサイズと効率的なバッチサイズを動的に決定する。
論文 参考訳(メタデータ) (2020-05-05T08:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。