論文の概要: Efficient Backpropagation with Variance-Controlled Adaptive Sampling
- arxiv url: http://arxiv.org/abs/2402.17227v1
- Date: Tue, 27 Feb 2024 05:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:45:01.992328
- Title: Efficient Backpropagation with Variance-Controlled Adaptive Sampling
- Title(参考訳): 可変制御適応サンプリングによる効率的なバックプロパゲーション
- Authors: Ziteng Wang, Jianfei Chen, Jun Zhu
- Abstract要約: 前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。
本稿では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。
VCASは、トレーニングプロセス全体の73.87%のFLOPs削減と49.58%のFLOPs削減で、元のトレーニング損失軌跡と検証精度を維持することができる。
- 参考スコア(独自算出の注目度): 32.297478086982466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sampling-based algorithms, which eliminate ''unimportant'' computations
during forward and/or back propagation (BP), offer potential solutions to
accelerate neural network training. However, since sampling introduces
approximations to training, such algorithms may not consistently maintain
accuracy across various tasks. In this work, we introduce a variance-controlled
adaptive sampling (VCAS) method designed to accelerate BP. VCAS computes an
unbiased stochastic gradient with fine-grained layerwise importance sampling in
data dimension for activation gradient calculation and leverage score sampling
in token dimension for weight gradient calculation. To preserve accuracy, we
control the additional variance by learning the sample ratio jointly with model
parameters during training. We assessed VCAS on multiple fine-tuning and
pre-training tasks in both vision and natural language domains. On all the
tasks, VCAS can preserve the original training loss trajectory and validation
accuracy with an up to 73.87% FLOPs reduction of BP and 49.58% FLOPs reduction
of the whole training process. The implementation is available at
https://github.com/thu-ml/VCAS .
- Abstract(参考訳): 前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。
しかし、サンプリングはトレーニングに近似を導入するため、これらのアルゴリズムは様々なタスクで一貫して精度を維持することはできない。
本研究では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。
VCASは、アクティベーション勾配計算のためのデータ次元において、きめ細かい層ごとに重要なサンプリングを行い、トークン次元におけるスコアサンプリングを利用して重み勾配計算を行う。
精度を維持するため,トレーニング中のモデルパラメータと組み合わせてサンプル比を学習することにより,付加的な分散を制御した。
我々は、視覚領域と自然言語領域の両方において、複数の微調整タスクと事前訓練タスクについてVCASを評価した。
すべてのタスクにおいてVCASは、トレーニングプロセス全体の73.87%のFLOPと49.58%のFLOPを削減して、元のトレーニング損失軌跡と検証精度を維持することができる。
実装はhttps://github.com/thu-ml/VCAS で公開されている。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Exploring Variance Reduction in Importance Sampling for Efficient DNN Training [1.7767466724342067]
本稿では,深層ニューラルネットワーク(DNN)トレーニングにおいて,重要サンプリング下でサンプリングされたミニバッチのみを用いて分散低減を推定する手法を提案する。
また、重要度サンプリングの効率を定量化する絶対測度と、移動勾配統計に基づく重要度スコアのリアルタイム推定アルゴリズムも導入する。
論文 参考訳(メタデータ) (2025-01-23T00:43:34Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - On the Convergence of Loss and Uncertainty-based Active Learning Algorithms [3.506897386829711]
本研究では、勾配降下法(SGD)アルゴリズムを用いて機械学習モデルの学習に必要な収束率とデータサンプルサイズについて検討する。
線形分類器と線形分離可能なデータセットに対する2乗ヒンジ損失と類似のトレーニング損失関数を用いた収束結果を提案する。
論文 参考訳(メタデータ) (2023-12-21T15:22:07Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - An In-depth Study of Stochastic Backpropagation [44.953669040828345]
本稿では,標準画像分類および物体検出タスクのための深層ニューラルネットワークのトレーニングにおいて,バックプロパゲーション(SBP)について検討する。
後方伝播中、SBPはGPUメモリと計算コストを節約するために、機能マップのサブセットのみを使用することで勾配を計算する。
画像分類とオブジェクト検出の実験は、SBPが最大40%のGPUメモリを1%未満の精度で保存できることを示している。
論文 参考訳(メタデータ) (2022-09-30T23:05:06Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。