論文の概要: Efficient Backpropagation with Variance-Controlled Adaptive Sampling
- arxiv url: http://arxiv.org/abs/2402.17227v1
- Date: Tue, 27 Feb 2024 05:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:45:01.992328
- Title: Efficient Backpropagation with Variance-Controlled Adaptive Sampling
- Title(参考訳): 可変制御適応サンプリングによる効率的なバックプロパゲーション
- Authors: Ziteng Wang, Jianfei Chen, Jun Zhu
- Abstract要約: 前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。
本稿では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。
VCASは、トレーニングプロセス全体の73.87%のFLOPs削減と49.58%のFLOPs削減で、元のトレーニング損失軌跡と検証精度を維持することができる。
- 参考スコア(独自算出の注目度): 32.297478086982466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sampling-based algorithms, which eliminate ''unimportant'' computations
during forward and/or back propagation (BP), offer potential solutions to
accelerate neural network training. However, since sampling introduces
approximations to training, such algorithms may not consistently maintain
accuracy across various tasks. In this work, we introduce a variance-controlled
adaptive sampling (VCAS) method designed to accelerate BP. VCAS computes an
unbiased stochastic gradient with fine-grained layerwise importance sampling in
data dimension for activation gradient calculation and leverage score sampling
in token dimension for weight gradient calculation. To preserve accuracy, we
control the additional variance by learning the sample ratio jointly with model
parameters during training. We assessed VCAS on multiple fine-tuning and
pre-training tasks in both vision and natural language domains. On all the
tasks, VCAS can preserve the original training loss trajectory and validation
accuracy with an up to 73.87% FLOPs reduction of BP and 49.58% FLOPs reduction
of the whole training process. The implementation is available at
https://github.com/thu-ml/VCAS .
- Abstract(参考訳): 前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。
しかし、サンプリングはトレーニングに近似を導入するため、これらのアルゴリズムは様々なタスクで一貫して精度を維持することはできない。
本研究では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。
VCASは、アクティベーション勾配計算のためのデータ次元において、きめ細かい層ごとに重要なサンプリングを行い、トークン次元におけるスコアサンプリングを利用して重み勾配計算を行う。
精度を維持するため,トレーニング中のモデルパラメータと組み合わせてサンプル比を学習することにより,付加的な分散を制御した。
我々は、視覚領域と自然言語領域の両方において、複数の微調整タスクと事前訓練タスクについてVCASを評価した。
すべてのタスクにおいてVCASは、トレーニングプロセス全体の73.87%のFLOPと49.58%のFLOPを削減して、元のトレーニング損失軌跡と検証精度を維持することができる。
実装はhttps://github.com/thu-ml/VCAS で公開されている。
関連論文リスト
- On the Convergence of Loss and Uncertainty-based Active Learning Algorithms [3.506897386829711]
本研究では、勾配降下法(SGD)アルゴリズムを用いて機械学習モデルの学習に必要な収束率とデータサンプルサイズについて検討する。
線形分類器と線形分離可能なデータセットに対する2乗ヒンジ損失と類似のトレーニング損失関数を用いた収束結果を提案する。
論文 参考訳(メタデータ) (2023-12-21T15:22:07Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - A Novel Adaptive Causal Sampling Method for Physics-Informed Neural
Networks [35.25394937917774]
インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の解を得るための魅力的な機械学習手法である。
適応サンプリングに時間因果性を導入し,PINの性能と効率を向上させるための適応因果サンプリング手法を提案する。
本研究では, 比較的単純なサンプリング手法を用いることで, 予測性能を2桁まで向上できることを実証した。
論文 参考訳(メタデータ) (2022-10-24T01:51:08Z) - An In-depth Study of Stochastic Backpropagation [44.953669040828345]
本稿では,標準画像分類および物体検出タスクのための深層ニューラルネットワークのトレーニングにおいて,バックプロパゲーション(SBP)について検討する。
後方伝播中、SBPはGPUメモリと計算コストを節約するために、機能マップのサブセットのみを使用することで勾配を計算する。
画像分類とオブジェクト検出の実験は、SBPが最大40%のGPUメモリを1%未満の精度で保存できることを示している。
論文 参考訳(メタデータ) (2022-09-30T23:05:06Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Efficient training of physics-informed neural networks via importance
sampling [2.9005223064604078]
Physics-In Neural Networks(PINN)は、偏微分方程式(PDE)によって制御されるシステムを計算するために訓練されているディープニューラルネットワークのクラスである。
重要サンプリング手法により,PINN訓練の収束挙動が改善されることが示唆された。
論文 参考訳(メタデータ) (2021-04-26T02:45:10Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。