論文の概要: Understanding the Training Speedup from Sampling with Approximate Losses
- arxiv url: http://arxiv.org/abs/2402.07052v1
- Date: Sat, 10 Feb 2024 21:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:57:06.512905
- Title: Understanding the Training Speedup from Sampling with Approximate Losses
- Title(参考訳): 近似損失によるサンプリングからトレーニングスピードアップを理解する
- Authors: Rudrajit Das, Xi Chen, Bertram Ieong, Parikshit Bansal, Sujay Sanghavi
- Abstract要約: 我々は, 正確な損失ではなく, テキストアポキシメート損失が大きいサンプルを選択するという欲求的なアプローチに着目する。
円滑な凸損失に対しては、そのような欲求戦略が平均損失の最小値の定数係数に収束できることが示される。
次に、早期退避を利用して近似損失を得るSIFTを開発する。
- 参考スコア(独自算出の注目度): 15.197987650873158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well known that selecting samples with large losses/gradients can
significantly reduce the number of training steps. However, the selection
overhead is often too high to yield any meaningful gains in terms of overall
training time. In this work, we focus on the greedy approach of selecting
samples with large \textit{approximate losses} instead of exact losses in order
to reduce the selection overhead. For smooth convex losses, we show that such a
greedy strategy can converge to a constant factor of the minimum value of the
average loss in fewer iterations than the standard approach of random
selection. We also theoretically quantify the effect of the approximation
level. We then develop SIFT which uses early exiting to obtain approximate
losses with an intermediate layer's representations for sample selection. We
evaluate SIFT on the task of training a 110M parameter 12-layer BERT base model
and show significant gains (in terms of training hours and number of
backpropagation steps) without any optimized implementation over vanilla
training. For e.g., to reach 64% validation accuracy, SIFT with exit at the
first layer takes ~43 hours compared to ~57 hours of vanilla training.
- Abstract(参考訳): 大きなロス/グレードを持つサンプルを選択することで、トレーニングステップの数を大幅に削減できることはよく知られている。
しかし、選択オーバヘッドは多くの場合、全体的なトレーニング時間の観点から有意義な成果を得るには高すぎる。
本研究では,選択のオーバーヘッドを減らすために,正確な損失ではなく,大きな \textit{approximate loss} を持つサンプルを選択するという,欲深いアプローチに着目する。
滑らかな凸損失に対して,このような欲望戦略は,ランダム選択の標準的なアプローチよりも少ないイテレーションで平均損失の最小値の定数係数に収束することを示した。
また、近似レベルの効果を理論的に定量化する。
次に,早期退避を利用してサンプル選択のための中間層表現を用いて近似損失を求めるSIFTを開発する。
我々は,110Mパラメータ12層BERTベースモデルのトレーニング作業におけるSIFTの評価を行い,バニラトレーニングに対する最適化実装を伴わずに,(トレーニング時間やバックプロパゲーションステップ数の観点から)有意な利得を示した。
例えば、検証精度が64%に達するためには、第1層の出口を持つSIFTは、バニラトレーニングの約57時間に比べて43時間かかる。
関連論文リスト
- Efficient Neural Network Training via Subset Pretraining [5.352839075466439]
ニューラルネットワークのトレーニングでは、バッチ上で計算された部分勾配を使用するのが一般的である。
トレーニングセットの損失最小限は、そのサブセットのミニマによって適切に近似されることが期待できる。
実験の結果 従来の訓練に匹敵する結果に 達できることが確認されました。
論文 参考訳(メタデータ) (2024-10-21T21:31:12Z) - Robust Time Series Forecasting with Non-Heavy-Tailed Gaussian Loss-Weighted Sampler [1.8816077341295625]
近年のリサンプリング手法は, ランニング損失に基づいてサンプルを再重み付けすることで, トレーニング効率を向上させることを目的としている。
本稿では,ガウスの損失重みとガウスの分布重みとを乗算するガウスの損失重み付きサンプリング手法を提案する。
これは、平均的な損失に近いものを選びながら、非常に低い、または非常に高い損失でサンプルを選択する確率を下げる。
論文 参考訳(メタデータ) (2024-06-19T22:28:18Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Prioritizing Samples in Reinforcement Learning with Reducible Loss [5.901819658403315]
サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。
学習能力の高いサンプルを優先するアルゴリズムを開発し,学習が難しいものに優先度を低く割り当てる。
論文 参考訳(メタデータ) (2022-08-22T17:55:43Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels [145.06552420999986]
ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。
本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
論文 参考訳(メタデータ) (2021-06-01T12:53:53Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。