論文の概要: Stochastic Weight Averaging in Parallel: Large-Batch Training that
Generalizes Well
- arxiv url: http://arxiv.org/abs/2001.02312v1
- Date: Tue, 7 Jan 2020 23:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:15:47.163805
- Title: Stochastic Weight Averaging in Parallel: Large-Batch Training that
Generalizes Well
- Title(参考訳): 平行に平均する確率的重量-よく一般化する大規模バッチ訓練
- Authors: Vipul Gupta, Santiago Akle Serrano, Dennis DeCoste
- Abstract要約: DNNトレーニングの高速化を目的として,SWAP(Weight Averaging in Parallel)を提案する。
提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。
結果として得られるモデルは、小さなミニバッチで訓練されたモデルと同等に一般化されるが、かなり短い時間で生産される。
- 参考スコア(独自算出の注目度): 7.262048441360133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Stochastic Weight Averaging in Parallel (SWAP), an algorithm to
accelerate DNN training. Our algorithm uses large mini-batches to compute an
approximate solution quickly and then refines it by averaging the weights of
multiple models computed independently and in parallel. The resulting models
generalize equally well as those trained with small mini-batches but are
produced in a substantially shorter time. We demonstrate the reduction in
training time and the good generalization performance of the resulting models
on the computer vision datasets CIFAR10, CIFAR100, and ImageNet.
- Abstract(参考訳): DNNトレーニングを高速化するアルゴリズムであるStochastic Weight Averaging in Parallel (SWAP)を提案する。
提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。
結果として得られたモデルは、小さなミニバッチで訓練されたモデルと同等に一般化するが、かなり短い時間で生産される。
コンピュータビジョンデータセットcifar10,cifar100,imagenetにおいて,トレーニング時間の短縮と結果モデルの優れた一般化性能を示す。
関連論文リスト
- Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - FastHebb: Scaling Hebbian Training of Deep Neural Networks to ImageNet
Level [7.410940271545853]
我々は、Hebbian学習のための効率的でスケーラブルなソリューションであるFastHebbを紹介する。
FastHebbはトレーニングのスピードで、これまでのソリューションを最大50倍のパフォーマンスで上回っている。
私たちは初めて、HebbianアルゴリズムをImageNetスケールに持ち込むことができます。
論文 参考訳(メタデータ) (2022-07-07T09:04:55Z) - PFGE: Parsimonious Fast Geometric Ensembling of DNNs [6.973476713852153]
本稿では,高性能深層ニューラルネットワークの軽量アンサンブルを用いたPFGE( parsimonious FGE)を提案する。
以上の結果から,PFGE 5xのメモリ効率は従来の手法に比べて向上した。
論文 参考訳(メタデータ) (2022-02-14T12:27:46Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。