論文の概要: Sparse maximal update parameterization: A holistic approach to sparse training dynamics
- arxiv url: http://arxiv.org/abs/2405.15743v1
- Date: Fri, 24 May 2024 17:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:01:17.376996
- Title: Sparse maximal update parameterization: A holistic approach to sparse training dynamics
- Title(参考訳): スパース最大更新パラメータ化:スパーストレーニングダイナミクスに対する総合的アプローチ
- Authors: Nolan Dey, Shane Bergsma, Joel Hestness,
- Abstract要約: 疎密で高密度なネットワークが、同じ最適なHPを共有していないことを示す。
S$mu$Parは、アクティベーション、グラデーション、およびウェイト更新を全てのスケールが、スパーシティレベルとは無関係に保証する。
大規模言語モデリングでは、S$mu$Parトレーニングは、高密度モデル標準パラメータ化を用いる一般的なアプローチに比べて、損失を最大8.2%改善する。
- 参考スコア(独自算出の注目度): 2.9312403481608715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several challenges make it difficult for sparse neural networks to compete with dense models. First, setting a large fraction of weights to zero impairs forward and gradient signal propagation. Second, sparse studies often need to test multiple sparsity levels, while also introducing new hyperparameters (HPs), leading to prohibitive tuning costs. Indeed, the standard practice is to re-use the learning HPs originally crafted for dense models. Unfortunately, we show sparse and dense networks do not share the same optimal HPs. Without stable dynamics and effective training recipes, it is costly to test sparsity at scale, which is key to surpassing dense networks and making the business case for sparsity acceleration in hardware. A holistic approach is needed to tackle these challenges and we propose S$\mu$Par as one such approach. S$\mu$Par ensures activations, gradients, and weight updates all scale independently of sparsity level. Further, by reparameterizing the HPs, S$\mu$Par enables the same HP values to be optimal as we vary both sparsity level and model width. HPs can be tuned on small dense networks and transferred to large sparse models, greatly reducing tuning costs. On large-scale language modeling, S$\mu$Par training improves loss by up to 8.2% over the common approach of using the dense model standard parameterization.
- Abstract(参考訳): いくつかの課題は、疎いニューラルネットワークが高密度モデルと競合することを困難にしている。
第一に、重量のかなりの部分をゼロに設定すると、前方と勾配信号の伝搬が損なわれる。
第二に、スパース研究は、しばしば複数の空間レベルをテストする必要がある一方で、新しいハイパーパラメータ(HP)を導入し、禁止的なチューニングコストをもたらす。
実際、標準のプラクティスは、もともと密度の高いモデルのために作られたHPの学習を再利用することである。
残念なことに、疎結合で密度の高いネットワークは、同じ最適なHPを共有していない。
安定したダイナミックスと効果的なトレーニングのレシピがなければ、高密度ネットワークを超越し、ハードウェアにおけるスパーシティアクセラレーションのビジネスケースを作る上で鍵となる、大規模にスパーシティをテストするのにコストがかかる。
これらの課題に対処するためには総合的なアプローチが必要であり、そのようなアプローチとしてS$\mu$Parを提案する。
S$\mu$Parは、アクティベーション、グラデーション、およびウェイト更新を、すべてのスペーサリティレベルとは無関係に保証する。
さらに、HPsを再パラメータ化することにより、S$\mu$Parは同じHP値が、スパーシリティレベルとモデル幅の両方が異なるため最適となる。
HPは小さな高密度ネットワーク上でチューニングが可能で、大きなスパースモデルに移行することで、チューニングコストを大幅に削減できる。
大規模言語モデリングでは、S$\mu$Parトレーニングは、高密度モデル標準パラメータ化を用いる一般的なアプローチに比べて、損失を最大8.2%改善する。
関連論文リスト
- u-$μ$P: The Unit-Scaled Maximal Update Parametrization [4.275373946090221]
我々は、u-mu$Pという新しいスキームを提示し、ユニットスケーリングと組み合わせることで、$mu$Pを改善する。
2つのテクニックには自然な親和性がある。$mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証するとともに、ユニットスケーリングはアクティベーション、ウェイト、勾配が1つのスケールでトレーニングを開始することを保証します。
論文 参考訳(メタデータ) (2024-07-24T17:58:42Z) - Spartan: Differentiable Sparsity via Regularized Transportation [31.084698051510873]
Spartanは、所定の間隔でスパースニューラルネットワークモデルをトレーニングする方法である。
ImageNet-1K分類では、スパルタは95%のスパース ResNet-50 モデルと90%のブロックスパルス ViT-B/16 モデルを生成する。
論文 参考訳(メタデータ) (2022-05-27T17:18:46Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Federated Progressive Sparsification (Purge, Merge, Tune)+ [15.08232397899507]
FedSparsifyは、プログレッシブ・ウェイト・マグニチュード・プルーニングに基づくスパーシフィケーション戦略である。
我々は,FedSparsifyが高空間性と学習性能の両方のサブネットワークを学習できることを実験的に示す。
論文 参考訳(メタデータ) (2022-04-26T16:45:53Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Near-Optimal Sparse Allreduce for Distributed Deep Learning [18.99898181586806]
コミュニケーションのオーバーヘッドは、大規模なディープラーニングモデルを大規模にトレーニングする上で、大きな障害のひとつです。
本稿では,スパース勾配を用いた分散トレーニング手法であるO$k$-Top$k$を提案する。
論文 参考訳(メタデータ) (2022-01-19T13:56:57Z) - Hyperparameter Tuning is All You Need for LISTA [92.7008234085887]
Learned Iterative Shrinkage-Thresholding Algorithm (LISTA)は、反復アルゴリズムをアンロールしてニューラルネットワークのようにトレーニングするという概念を導入している。
LISTAネットワークの中間変数に運動量を加えることで、より優れた収束率が得られることを示す。
この超軽量ネットワークをHyperLISTAと呼ぶ。
論文 参考訳(メタデータ) (2021-10-29T16:35:38Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。