論文の概要: Stochastic Weight Averaging in Parallel: Large-Batch Training that
Generalizes Well
- arxiv url: http://arxiv.org/abs/2001.02312v1
- Date: Tue, 7 Jan 2020 23:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:15:47.163805
- Title: Stochastic Weight Averaging in Parallel: Large-Batch Training that
Generalizes Well
- Title(参考訳): 平行に平均する確率的重量-よく一般化する大規模バッチ訓練
- Authors: Vipul Gupta, Santiago Akle Serrano, Dennis DeCoste
- Abstract要約: DNNトレーニングの高速化を目的として,SWAP(Weight Averaging in Parallel)を提案する。
提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。
結果として得られるモデルは、小さなミニバッチで訓練されたモデルと同等に一般化されるが、かなり短い時間で生産される。
- 参考スコア(独自算出の注目度): 7.262048441360133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Stochastic Weight Averaging in Parallel (SWAP), an algorithm to
accelerate DNN training. Our algorithm uses large mini-batches to compute an
approximate solution quickly and then refines it by averaging the weights of
multiple models computed independently and in parallel. The resulting models
generalize equally well as those trained with small mini-batches but are
produced in a substantially shorter time. We demonstrate the reduction in
training time and the good generalization performance of the resulting models
on the computer vision datasets CIFAR10, CIFAR100, and ImageNet.
- Abstract(参考訳): DNNトレーニングを高速化するアルゴリズムであるStochastic Weight Averaging in Parallel (SWAP)を提案する。
提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。
結果として得られたモデルは、小さなミニバッチで訓練されたモデルと同等に一般化するが、かなり短い時間で生産される。
コンピュータビジョンデータセットcifar10,cifar100,imagenetにおいて,トレーニング時間の短縮と結果モデルの優れた一般化性能を示す。
関連論文リスト
- Automatically Planning Optimal Parallel Strategy for Large Language Models [9.804975588324035]
本稿では,並列戦略を最大スループットで自動計画する並列アルゴリズムを提案する。
トレーニング時間を計算,通信,重複に分離することにより,トレーニング期間シミュレーションモデルを構築した。
マルチノード実験の結果、アルゴリズムは平均96%の精度でリアルタイムに並列トレーニング期間を推定できることが示されている。
論文 参考訳(メタデータ) (2024-12-31T03:51:14Z) - OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。
提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - PFGE: Parsimonious Fast Geometric Ensembling of DNNs [6.973476713852153]
本稿では,高性能深層ニューラルネットワークの軽量アンサンブルを用いたPFGE( parsimonious FGE)を提案する。
以上の結果から,PFGE 5xのメモリ効率は従来の手法に比べて向上した。
論文 参考訳(メタデータ) (2022-02-14T12:27:46Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。