Fugu-MT 論文翻訳(概要): Stochastic Weight Averaging in Parallel: Large-Batch Training that Generalizes Well

論文の概要: Stochastic Weight Averaging in Parallel: Large-Batch Training that Generalizes Well

arxiv url: http://arxiv.org/abs/2001.02312v1
Date: Tue, 7 Jan 2020 23:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 20:15:47.163805
Title: Stochastic Weight Averaging in Parallel: Large-Batch Training that Generalizes Well
Title（参考訳）: 平行に平均する確率的重量-よく一般化する大規模バッチ訓練
Authors: Vipul Gupta, Santiago Akle Serrano, Dennis DeCoste
Abstract要約: DNNトレーニングの高速化を目的として,SWAP(Weight Averaging in Parallel)を提案する。提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。結果として得られるモデルは、小さなミニバッチで訓練されたモデルと同等に一般化されるが、かなり短い時間で生産される。
参考スコア（独自算出の注目度）: 7.262048441360133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Stochastic Weight Averaging in Parallel (SWAP), an algorithm to accelerate DNN training. Our algorithm uses large mini-batches to compute an approximate solution quickly and then refines it by averaging the weights of multiple models computed independently and in parallel. The resulting models generalize equally well as those trained with small mini-batches but are produced in a substantially shorter time. We demonstrate the reduction in training time and the good generalization performance of the resulting models on the computer vision datasets CIFAR10, CIFAR100, and ImageNet.
Abstract（参考訳）: DNNトレーニングを高速化するアルゴリズムであるStochastic Weight Averaging in Parallel (SWAP)を提案する。提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。結果として得られたモデルは、小さなミニバッチで訓練されたモデルと同等に一般化するが、かなり短い時間で生産される。コンピュータビジョンデータセットcifar10,cifar100,imagenetにおいて,トレーニング時間の短縮と結果モデルの優れた一般化性能を示す。

関連論文リスト

Automatically Planning Optimal Parallel Strategy for Large Language Models [9.804975588324035]
本稿では,並列戦略を最大スループットで自動計画する並列アルゴリズムを提案する。トレーニング時間を計算,通信,重複に分離することにより,トレーニング期間シミュレーションモデルを構築した。マルチノード実験の結果、アルゴリズムは平均96%の精度でリアルタイムに並列トレーニング期間を推定できることが示されている。
論文参考訳（メタデータ） (2024-12-31T03:51:14Z)
OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
Always-Sparse Training by Growing Connections with Guided Stochastic Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文参考訳（メタデータ） (2024-01-12T21:32:04Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
FastHebb: Scaling Hebbian Training of Deep Neural Networks to ImageNet Level [7.410940271545853]
我々は、Hebbian学習のための効率的でスケーラブルなソリューションであるFastHebbを紹介する。 FastHebbはトレーニングのスピードで、これまでのソリューションを最大50倍のパフォーマンスで上回っている。私たちは初めて、HebbianアルゴリズムをImageNetスケールに持ち込むことができます。
論文参考訳（メタデータ） (2022-07-07T09:04:55Z)
PFGE: Parsimonious Fast Geometric Ensembling of DNNs [6.973476713852153]
本稿では,高性能深層ニューラルネットワークの軽量アンサンブルを用いたPFGE( parsimonious FGE)を提案する。以上の結果から,PFGE 5xのメモリ効率は従来の手法に比べて向上した。
論文参考訳（メタデータ） (2022-02-14T12:27:46Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文参考訳（メタデータ） (2020-08-21T19:35:54Z)
Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文参考訳（メタデータ） (2020-04-28T07:13:50Z)
Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文参考訳（メタデータ） (2020-04-13T23:09:15Z)
Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文参考訳（メタデータ） (2020-02-20T10:50:58Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。