論文の概要: Efficient Neural Network Training via Subset Pretraining
- arxiv url: http://arxiv.org/abs/2410.16523v2
- Date: Tue, 29 Oct 2024 14:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:01.116276
- Title: Efficient Neural Network Training via Subset Pretraining
- Title(参考訳): サブセット事前学習によるニューラルネットワーク学習の効率化
- Authors: Jan Spörer, Bernhard Bermeitinger, Tomas Hrycej, Niklas Limacher, Siegfried Handschuh,
- Abstract要約: ニューラルネットワークのトレーニングでは、バッチ上で計算された部分勾配を使用するのが一般的である。
トレーニングセットの損失最小限は、そのサブセットのミニマによって適切に近似されることが期待できる。
実験の結果 従来の訓練に匹敵する結果に 達できることが確認されました。
- 参考スコア(独自算出の注目度): 5.352839075466439
- License:
- Abstract: In training neural networks, it is common practice to use partial gradients computed over batches, mostly very small subsets of the training set. This approach is motivated by the argument that such a partial gradient is close to the true one, with precision growing only with the square root of the batch size. A theoretical justification is with the help of stochastic approximation theory. However, the conditions for the validity of this theory are not satisfied in the usual learning rate schedules. Batch processing is also difficult to combine with efficient second-order optimization methods. This proposal is based on another hypothesis: the loss minimum of the training set can be expected to be well-approximated by the minima of its subsets. Such subset minima can be computed in a fraction of the time necessary for optimizing over the whole training set. This hypothesis has been tested with the help of the MNIST, CIFAR-10, and CIFAR-100 image classification benchmarks, optionally extended by training data augmentation. The experiments have confirmed that results equivalent to conventional training can be reached. In summary, even small subsets are representative if the overdetermination ratio for the given model parameter set sufficiently exceeds unity. The computing expense can be reduced to a tenth or less.
- Abstract(参考訳): ニューラルネットワークのトレーニングでは、バッチ上で計算された部分勾配(主にトレーニングセットのごく小さな部分集合)を使用するのが一般的である。
このアプローチは、そのような部分勾配が真に近いという議論によって動機付けられ、精度はバッチサイズの平方根でのみ成長する。
理論上の正当化は確率近似理論の助けを借りることである。
しかし、この理論の有効性の条件は、通常の学習率のスケジュールでは満たされない。
バッチ処理は、効率的な2階最適化手法と組み合わせることも困難である。
この提案は別の仮説に基づいており、トレーニングセットの損失最小値は、そのサブセットのミニマによって適切に近似されることを期待できる。
このようなサブセットのミニマは、トレーニングセット全体の最適化に必要な時間のごく一部で計算することができる。
この仮説は、MNIST、CIFAR-10、CIFAR-100画像分類ベンチマークの助けを借りてテストされ、任意にデータ拡張によって拡張された。
実験の結果、従来のトレーニングに匹敵する結果に到達できることが確認された。
要約すると、与えられたモデルパラメータ集合の過剰決定比がユニティを十分に上回っている場合、たとえ小さな部分集合であっても代表的である。
計算費用は10分の1以下に削減できる。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Training highly effective connectivities within neural networks with
randomly initialized, fixed weights [4.56877715768796]
重みの符号を反転させてネットワークを訓練する新しい方法を提案する。
重みが一定等級であっても、高非対称分布から重みが引き出される場合でも良い結果が得られる。
論文 参考訳(メタデータ) (2020-06-30T09:41:18Z) - One Size Fits All: Can We Train One Denoiser for All Noise Levels? [13.46272057205994]
1つのニューラルネットワーク推定器を訓練し、それを全てのノイズレベルに適用することが好ましい。
事実上のプロトコルは、ノイズが均一に分散されたノイズサンプルで推定器を訓練することである。
本稿では,ミニマックスリスク最適化の観点から,サンプル問題に対処する。
論文 参考訳(メタデータ) (2020-05-19T17:56:04Z) - TRP: Trained Rank Pruning for Efficient Deep Neural Networks [69.06699632822514]
低位近似とトレーニングを交互に行うTrated Rank Pruning (TRP)を提案する。
サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。
TRPトレーニングネットワークは本質的に低ランク構造であり、無視可能な性能損失と近似される。
論文 参考訳(メタデータ) (2020-04-30T03:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。