Fugu-MT 論文翻訳(概要): Efficient Backpropagation with Variance-Controlled Adaptive Sampling

論文の概要: Efficient Backpropagation with Variance-Controlled Adaptive Sampling

arxiv url: http://arxiv.org/abs/2402.17227v1
Date: Tue, 27 Feb 2024 05:40:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 17:45:01.992328
Title: Efficient Backpropagation with Variance-Controlled Adaptive Sampling
Title（参考訳）: 可変制御適応サンプリングによる効率的なバックプロパゲーション
Authors: Ziteng Wang, Jianfei Chen, Jun Zhu
Abstract要約: 前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。本稿では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。 VCASは、トレーニングプロセス全体の73.87%のFLOPs削減と49.58%のFLOPs削減で、元のトレーニング損失軌跡と検証精度を維持することができる。
参考スコア（独自算出の注目度）: 32.297478086982466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sampling-based algorithms, which eliminate ''unimportant'' computations during forward and/or back propagation (BP), offer potential solutions to accelerate neural network training. However, since sampling introduces approximations to training, such algorithms may not consistently maintain accuracy across various tasks. In this work, we introduce a variance-controlled adaptive sampling (VCAS) method designed to accelerate BP. VCAS computes an unbiased stochastic gradient with fine-grained layerwise importance sampling in data dimension for activation gradient calculation and leverage score sampling in token dimension for weight gradient calculation. To preserve accuracy, we control the additional variance by learning the sample ratio jointly with model parameters during training. We assessed VCAS on multiple fine-tuning and pre-training tasks in both vision and natural language domains. On all the tasks, VCAS can preserve the original training loss trajectory and validation accuracy with an up to 73.87% FLOPs reduction of BP and 49.58% FLOPs reduction of the whole training process. The implementation is available at https://github.com/thu-ml/VCAS .
Abstract（参考訳）: 前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。しかし、サンプリングはトレーニングに近似を導入するため、これらのアルゴリズムは様々なタスクで一貫して精度を維持することはできない。本研究では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。 VCASは、アクティベーション勾配計算のためのデータ次元において、きめ細かい層ごとに重要なサンプリングを行い、トークン次元におけるスコアサンプリングを利用して重み勾配計算を行う。精度を維持するため,トレーニング中のモデルパラメータと組み合わせてサンプル比を学習することにより,付加的な分散を制御した。我々は、視覚領域と自然言語領域の両方において、複数の微調整タスクと事前訓練タスクについてVCASを評価した。すべてのタスクにおいてVCASは、トレーニングプロセス全体の73.87%のFLOPと49.58%のFLOPを削減して、元のトレーニング損失軌跡と検証精度を維持することができる。実装はhttps://github.com/thu-ml/VCAS で公開されている。

関連論文リスト

SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。離散選択問題を連続的な部分集合最適化フレームワークに変換する。両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文参考訳（メタデータ） (2025-02-14T12:35:21Z)
Exploring Variance Reduction in Importance Sampling for Efficient DNN Training [1.7767466724342067]
本稿では,深層ニューラルネットワーク(DNN)トレーニングにおいて,重要サンプリング下でサンプリングされたミニバッチのみを用いて分散低減を推定する手法を提案する。また、重要度サンプリングの効率を定量化する絶対測度と、移動勾配統計に基づく重要度スコアのリアルタイム推定アルゴリズムも導入する。
論文参考訳（メタデータ） (2025-01-23T00:43:34Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
On the Convergence of Loss and Uncertainty-based Active Learning Algorithms [3.506897386829711]
本研究では、勾配降下法(SGD)アルゴリズムを用いて機械学習モデルの学習に必要な収束率とデータサンプルサイズについて検討する。線形分類器と線形分離可能なデータセットに対する2乗ヒンジ損失と類似のトレーニング損失関数を用いた収束結果を提案する。
論文参考訳（メタデータ） (2023-12-21T15:22:07Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文参考訳（メタデータ） (2023-11-24T13:21:35Z)
KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文参考訳（メタデータ） (2023-10-16T06:19:29Z)
A Novel Adaptive Causal Sampling Method for Physics-Informed Neural Networks [35.25394937917774]
インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の解を得るための魅力的な機械学習手法である。適応サンプリングに時間因果性を導入し,PINの性能と効率を向上させるための適応因果サンプリング手法を提案する。本研究では, 比較的単純なサンプリング手法を用いることで, 予測性能を2桁まで向上できることを実証した。
論文参考訳（メタデータ） (2022-10-24T01:51:08Z)
An In-depth Study of Stochastic Backpropagation [44.953669040828345]
本稿では,標準画像分類および物体検出タスクのための深層ニューラルネットワークのトレーニングにおいて,バックプロパゲーション(SBP)について検討する。後方伝播中、SBPはGPUメモリと計算コストを節約するために、機能マップのサブセットのみを使用することで勾配を計算する。画像分類とオブジェクト検出の実験は、SBPが最大40%のGPUメモリを1%未満の精度で保存できることを示している。
論文参考訳（メタデータ） (2022-09-30T23:05:06Z)
Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文参考訳（メタデータ） (2022-07-16T03:09:30Z)
Efficient training of physics-informed neural networks via importance sampling [2.9005223064604078]
Physics-In Neural Networks(PINN)は、偏微分方程式(PDE)によって制御されるシステムを計算するために訓練されているディープニューラルネットワークのクラスである。重要サンプリング手法により,PINN訓練の収束挙動が改善されることが示唆された。
論文参考訳（メタデータ） (2021-04-26T02:45:10Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Spatially Adaptive Inference with Stochastic Feature Sampling and Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。次に、効率的な手順で特徴写像を密に再構築する。提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文参考訳（メタデータ） (2020-03-19T15:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。