論文の概要: Predicting Training Time Without Training
- arxiv url: http://arxiv.org/abs/2008.12478v1
- Date: Fri, 28 Aug 2020 04:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:30:36.026558
- Title: Predicting Training Time Without Training
- Title(参考訳): トレーニングなしのトレーニング時間の予測
- Authors: Luca Zancato, Alessandro Achille, Avinash Ravichandran, Rahul Bhotika,
Stefano Soatto
- Abstract要約: 我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
- 参考スコア(独自算出の注目度): 120.92623395389255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of predicting the number of optimization steps that a
pre-trained deep network needs to converge to a given value of the loss
function. To do so, we leverage the fact that the training dynamics of a deep
network during fine-tuning are well approximated by those of a linearized
model. This allows us to approximate the training loss and accuracy at any
point during training by solving a low-dimensional Stochastic Differential
Equation (SDE) in function space. Using this result, we are able to predict the
time it takes for Stochastic Gradient Descent (SGD) to fine-tune a model to a
given loss without having to perform any training. In our experiments, we are
able to predict training time of a ResNet within a 20% error margin on a
variety of datasets and hyper-parameters, at a 30 to 45-fold reduction in cost
compared to actual training. We also discuss how to further reduce the
computational and memory cost of our method, and in particular we show that by
exploiting the spectral properties of the gradients' matrix it is possible
predict training time on a large dataset while processing only a subset of the
samples.
- Abstract(参考訳): 我々は,事前学習した深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
そこで我々は, 線形化モデルにより, 微調整中の深部ネットワークのトレーニングダイナミクスがよく近似されているという事実を活用する。
これにより、低次元確率微分方程式(SDE)を関数空間で解くことにより、トレーニング中の任意の時点におけるトレーニング損失と精度を近似することができる。
この結果を用いて、SGD(Stochastic Gradient Descent)が、トレーニングを行うことなく、与えられた損失にモデルを微調整するために必要な時間を予測することができる。
私たちの実験では、さまざまなデータセットとハイパーパラメータのエラーマージンの20%以内で、実際のトレーニングに比べて30倍から45倍のコスト削減で、resnetのトレーニング時間を予測できます。
また,本手法の計算・メモリコストをさらに削減する方法についても検討し,特に勾配行列のスペクトル特性を利用することで,サンプルのサブセットのみを処理しながら,大規模データセット上でのトレーニング時間を予測可能であることを示す。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Adaptive Sampling for Deep Learning via Efficient Nonparametric Proxies [35.29595714883275]
我々は,Nadaraya-Watson推定器に対する効率的なスケッチベース近似を開発した。
サンプリングアルゴリズムは,4つのデータセットに対して,壁面時間と精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-11-22T18:40:18Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - On minimizing the training set fill distance in machine learning regression [0.552480439325792]
本研究では,選択した集合の充填距離を最小化することを目的としたデータ選択手法を提案する。
FPSを用いてトレーニングセットを選択することで、ガウスカーネル回帰アプローチの特定の場合のモデルの安定性を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-20T16:18:33Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - Enabling On-Device CNN Training by Self-Supervised Instance Filtering
and Error Map Pruning [17.272561332310303]
この研究は、トレーニング時の計算コストを削減し、デバイス上での畳み込みニューラルネットワーク(CNN)のトレーニングを可能にすることを目的としている。
CNNモデルは、通常高性能コンピュータ上で訓練され、訓練されたモデルのみがエッジデバイスにデプロイされる。
論文 参考訳(メタデータ) (2020-07-07T05:52:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。