論文の概要: Sparse maximal update parameterization: A holistic approach to sparse training dynamics
- arxiv url: http://arxiv.org/abs/2405.15743v1
- Date: Fri, 24 May 2024 17:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:01:17.376996
- Title: Sparse maximal update parameterization: A holistic approach to sparse training dynamics
- Title(参考訳): スパース最大更新パラメータ化:スパーストレーニングダイナミクスに対する総合的アプローチ
- Authors: Nolan Dey, Shane Bergsma, Joel Hestness,
- Abstract要約: 疎密で高密度なネットワークが、同じ最適なHPを共有していないことを示す。
S$mu$Parは、アクティベーション、グラデーション、およびウェイト更新を全てのスケールが、スパーシティレベルとは無関係に保証する。
大規模言語モデリングでは、S$mu$Parトレーニングは、高密度モデル標準パラメータ化を用いる一般的なアプローチに比べて、損失を最大8.2%改善する。
- 参考スコア(独自算出の注目度): 2.9312403481608715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several challenges make it difficult for sparse neural networks to compete with dense models. First, setting a large fraction of weights to zero impairs forward and gradient signal propagation. Second, sparse studies often need to test multiple sparsity levels, while also introducing new hyperparameters (HPs), leading to prohibitive tuning costs. Indeed, the standard practice is to re-use the learning HPs originally crafted for dense models. Unfortunately, we show sparse and dense networks do not share the same optimal HPs. Without stable dynamics and effective training recipes, it is costly to test sparsity at scale, which is key to surpassing dense networks and making the business case for sparsity acceleration in hardware. A holistic approach is needed to tackle these challenges and we propose S$\mu$Par as one such approach. S$\mu$Par ensures activations, gradients, and weight updates all scale independently of sparsity level. Further, by reparameterizing the HPs, S$\mu$Par enables the same HP values to be optimal as we vary both sparsity level and model width. HPs can be tuned on small dense networks and transferred to large sparse models, greatly reducing tuning costs. On large-scale language modeling, S$\mu$Par training improves loss by up to 8.2% over the common approach of using the dense model standard parameterization.
- Abstract(参考訳): いくつかの課題は、疎いニューラルネットワークが高密度モデルと競合することを困難にしている。
第一に、重量のかなりの部分をゼロに設定すると、前方と勾配信号の伝搬が損なわれる。
第二に、スパース研究は、しばしば複数の空間レベルをテストする必要がある一方で、新しいハイパーパラメータ(HP)を導入し、禁止的なチューニングコストをもたらす。
実際、標準のプラクティスは、もともと密度の高いモデルのために作られたHPの学習を再利用することである。
残念なことに、疎結合で密度の高いネットワークは、同じ最適なHPを共有していない。
安定したダイナミックスと効果的なトレーニングのレシピがなければ、高密度ネットワークを超越し、ハードウェアにおけるスパーシティアクセラレーションのビジネスケースを作る上で鍵となる、大規模にスパーシティをテストするのにコストがかかる。
これらの課題に対処するためには総合的なアプローチが必要であり、そのようなアプローチとしてS$\mu$Parを提案する。
S$\mu$Parは、アクティベーション、グラデーション、およびウェイト更新を、すべてのスペーサリティレベルとは無関係に保証する。
さらに、HPsを再パラメータ化することにより、S$\mu$Parは同じHP値が、スパーシリティレベルとモデル幅の両方が異なるため最適となる。
HPは小さな高密度ネットワーク上でチューニングが可能で、大きなスパースモデルに移行することで、チューニングコストを大幅に削減できる。
大規模言語モデリングでは、S$\mu$Parトレーニングは、高密度モデル標準パラメータ化を用いる一般的なアプローチに比べて、損失を最大8.2%改善する。
関連論文リスト
- u-$μ$P: The Unit-Scaled Maximal Update Parametrization [4.275373946090221]
我々は、u-mu$Pという新しいスキームを提示し、ユニットスケーリングと組み合わせることで、$mu$Pを改善する。
2つのテクニックには自然な親和性がある。$mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証するとともに、ユニットスケーリングはアクティベーション、ウェイト、勾配が1つのスケールでトレーニングを開始することを保証します。
論文 参考訳(メタデータ) (2024-07-24T17:58:42Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Federated Progressive Sparsification (Purge, Merge, Tune)+ [15.08232397899507]
FedSparsifyは、プログレッシブ・ウェイト・マグニチュード・プルーニングに基づくスパーシフィケーション戦略である。
我々は,FedSparsifyが高空間性と学習性能の両方のサブネットワークを学習できることを実験的に示す。
論文 参考訳(メタデータ) (2022-04-26T16:45:53Z) - Towards Simple and Accurate Human Pose Estimation with Stair Network [34.421529219040295]
精度の高い多段階ポーズ推定システムに積み重ねることができるStair Networkと呼ばれる小さな判別モデルを開発した。
計算コストを削減するため、Stair Networkは、新しい基本的な特徴抽出ブロックで構成されている。
2つの標準データセットに対するStair Networkの有効性を示す。
論文 参考訳(メタデータ) (2022-02-18T10:37:13Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。