論文の概要: GradES: Significantly Faster Training in Transformers with Gradient-Based Early Stopping
- arxiv url: http://arxiv.org/abs/2509.01842v2
- Date: Sun, 28 Sep 2025 17:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.193731
- Title: GradES: Significantly Faster Training in Transformers with Gradient-Based Early Stopping
- Title(参考訳): GradES: グラディエントベースの早期停止によるトランスフォーマーのトレーニングの高速化
- Authors: Qifu Wen, Xi Zeng, Zihan Zhou, Shuaijun Liu, Mehdi Hosseinzadeh, Ningxin Su, Reza Rawassizadeh,
- Abstract要約: 早期停止はグローバルなバリデーション損失を監視し、すべてのパラメータ更新を同時に停止する。
textitGradESは、トランスフォーマーコンポーネント内で動作可能な、新しい勾配ベースの早期停止アプローチである。
textitGradESはトレーニング時間を1.57--7.22$times$で高速化すると同時に、オーバーフィッティングの早期防止による一般化を同時に強化する。
- 参考スコア(独自算出の注目度): 9.8335797454886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early stopping monitors global validation loss and halts all parameter updates simultaneously, which is computationally costly for large transformers due to the extended time required for validation inference. We propose \textit{GradES}, a novel gradient-based early stopping approach that operates within transformer components (attention projections and Feed-Forward layer matrices). We found that different components converge at varying rates during fine-tuning for both language and vision-language models. \textit{GradES} tracks the magnitude of gradient changes in backpropagation for these matrices during training. When a projection matrix's magnitude of gradient changes fall below a convergence threshold $\tau$, we exclude that projection matrix from further updates individually, eliminating costly validation passes while allowing slow converging matrices to continue learning. \textit{GradES} speeds up training time by 1.57--7.22$\times$ while simultaneously enhancing generalization through early prevention of overfitting, resulting in 1.2\% higher average accuracy in language tasks and 3.88\% on multimodal benchmarks.
- Abstract(参考訳): 早期停止はグローバルな検証損失を監視し、全てのパラメータ更新を同時に停止する。
本稿では, 変圧器部品(アテンションプロジェクションとフィードフォワード層行列)内で動作する, 勾配に基づく新しい早期停止手法である \textit{GradES} を提案する。
その結果、言語モデルと視覚言語モデルの両方において、様々なコンポーネントが微調整中に様々な速度で収束していることが判明した。
\textit{GradES} は、トレーニング中のこれらの行列のバックプロパゲーションの勾配変化の大きさを追跡する。
プロジェクション行列の勾配変化の程度が収束しきい値の$\tau$を下回ると、プロジェクション行列は個別に更新されることを排除し、ゆっくりと収束する行列の学習を継続しながら、コストのかかる検証パスを排除します。
\textit{GradES} はトレーニング時間を 1.57--7.22$\times$ で高速化すると同時に、オーバーフィッティングの早期防止による一般化を同時に強化する。
関連論文リスト
- PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training [21.695928776150808]
アクセラレータのメモリとネットワークの制約は、大きな言語モデルをトレーニングする際の主要なボトルネックとして現れている。
PLUMAGE: Probabilistic Low rank Unbiased Minimum v Ariance Gradient Estorを提案する。
PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。
論文 参考訳(メタデータ) (2025-05-23T19:17:55Z) - Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering [36.896695278624776]
従来の分散データ-並列勾配勾配は、モデルパラメータの更新に使用されるマクロバッチを計算するために、マイクロバッチの勾配を平均化する。
本研究では,マイクログラディエント間のコサイン距離を計算し,グラディエンス分散を簡易かつ効果的に低減する手法を提案する。
従来のトレーニング手法と比較して,検証精度が最大18.2%向上するケースもある。
論文 参考訳(メタデータ) (2024-12-24T00:00:11Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Dynamically Adjusting Transformer Batch Size by Monitoring Gradient
Direction Change [69.40942736249397]
バッチサイズの増加が勾配方向に与える影響を分析する。
本稿では,勾配の安定性を角度変化で評価する。
トレーニング中の適切なバッチサイズと効率的なバッチサイズを動的に決定する。
論文 参考訳(メタデータ) (2020-05-05T08:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。