論文の概要: Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering
- arxiv url: http://arxiv.org/abs/2412.18052v2
- Date: Sun, 29 Dec 2024 11:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 12:42:38.961875
- Title: Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering
- Title(参考訳): 並列最適化におけるグラディエント平均化を超えて:グラディエント合意フィルタリングによるロバスト性の改善
- Authors: Francois Chaubard, Duncan Eddy, Mykel J. Kochenderfer,
- Abstract要約: 従来の分散データ-並列勾配勾配は、モデルパラメータの更新に使用されるマクロバッチを計算するために、マイクロバッチの勾配を平均化する。
本研究では,マイクログラディエント間のコサイン距離を計算し,グラディエンス分散を簡易かつ効果的に低減する手法を提案する。
従来のトレーニング手法と比較して,検証精度が最大18.2%向上するケースもある。
- 参考スコア(独自算出の注目度): 36.896695278624776
- License:
- Abstract: We introduce Gradient Agreement Filtering (GAF) to improve on gradient averaging in distributed deep learning optimization. Traditional distributed data-parallel stochastic gradient descent involves averaging gradients of microbatches to calculate a macrobatch gradient that is then used to update model parameters. We find that gradients across microbatches are often orthogonal or negatively correlated, especially in late stages of training, which leads to memorization of the training set, reducing generalization. In this paper, we introduce a simple, computationally effective way to reduce gradient variance by computing the cosine distance between micro-gradients during training and filtering out conflicting updates prior to averaging. We improve validation accuracy with significantly smaller microbatch sizes. We also show this reduces memorizing noisy labels. We demonstrate the effectiveness of this technique on standard image classification benchmarks including CIFAR-100 and CIFAR-100N-Fine. We show this technique consistently outperforms validation accuracy, in some cases by up to 18.2\% compared to traditional training approaches while reducing the computation required nearly an order of magnitude because we can now rely on smaller microbatch sizes without destabilizing training.
- Abstract(参考訳): 本稿では,分散ディープラーニング最適化における勾配平均化を改善するために,GAF(Gradient Agreement Filtering)を導入する。
従来の分散データ並列確率勾配勾配は、モデルパラメータの更新に使用されるマクロバッチ勾配を計算するために、マイクロバッチの勾配を平均化する。
マイクロバッチ間の勾配はしばしば直交的あるいは負の相関関係にあり、特に後期のトレーニングではトレーニングセットを記憶し、一般化を減少させる。
本稿では、トレーニング中のマイクログラディエント間のコサイン距離を計算し、平均化に先立って競合する更新をフィルタリングすることにより、勾配分散を低減するための単純で効率的な方法を提案する。
マイクロバッチサイズを大幅に小さくして検証精度を向上させる。
また、これはノイズを記憶するラベルを減らすことも示している。
CIFAR-100やCIFAR-100N-Fineなどの標準画像分類ベンチマークにおいて,この手法の有効性を示す。
この手法は、従来のトレーニング手法と比較して最大18.2倍の精度で検証精度を常に上回る一方で、トレーニングを不安定にすることなく、より小さなマイクロバッチサイズに依存することができるため、ほぼ1桁の計算を削減できることを示す。
関連論文リスト
- Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for large-scale optimization [1.6749379740049926]
そこで我々は,F-CMA,F-Controlled Mini-batchアルゴリズムを導入し,各エポックあたりの損失低減を確保するために,十分な減少条件とライン探索手順を備えたランダムリシャッフル法を提案する。
テストでは、トレーニング時間全体の68%の削減、エポック毎の効率の最大20%向上、モデル精度の最大5%向上など、大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-11-24T11:46:47Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Low-Precision Arithmetic for Fast Gaussian Processes [39.720581185327816]
低精度算術はニューラルネットワークの訓練に変換効果をもたらした。
本稿では,共役勾配の直交化,混合精度,プレコンディショニングを含む多面的アプローチを提案する。
提案手法は, 広範囲な設定において, 低精度での共役勾配の数値安定性と実用性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-07-14T12:20:46Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - When are Iterative Gaussian Processes Reliably Accurate? [38.523693700243975]
ランツォス分解は高度に正確な点予測を伴うスケーラブルなガウス過程推論を達成している。
CG耐性,プレコンディショナーランク,およびLaczos分解ランクについて検討した。
本稿では,LGS-BFB が反復型 GP にとって魅力的であり,より少ない更新で収束を達成することを示す。
論文 参考訳(メタデータ) (2021-12-31T00:02:18Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。