論文の概要: The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter
- arxiv url: http://arxiv.org/abs/2306.03805v2
- Date: Wed, 9 Aug 2023 21:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:49:14.811789
- Title: The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter
- Title(参考訳): 大規模事前訓練モデルにおける本質的疎結合の出現:重要度
- Authors: Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Zhangyang Wang
- Abstract要約: 本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
- 参考スコア(独自算出の注目度): 113.35761858962522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained transformers are show-stealer in modern-day deep learning,
and it becomes crucial to comprehend the parsimonious patterns that exist
within them as they grow in scale. With exploding parameter counts, Lottery
Ticket Hypothesis (LTH) and its variants, have lost their pragmatism in
sparsifying them due to high computation and memory bottleneck of repetitive
train-prune-retrain routine of iterative magnitude pruning (IMP) which worsens
with increasing model size. This paper comprehensively studies induced sparse
patterns across multiple large pre-trained vision and language transformers. We
propose the existence of -- essential sparsity defined with a sharp dropping
point beyond which the performance declines much faster w.r.t the rise of
sparsity level, when we directly remove weights with the smallest magnitudes in
one-shot without re-training. We also find essential sparsity to hold valid for
N:M sparsity patterns as well as on modern-scale large language models
(Vicuna-7B). We also present an intriguing emerging phenomenon of abrupt
sparsification during the pre-training of BERT, i.e., BERT suddenly becomes
heavily sparse in pre-training after certain iterations. Moreover, our
observations also indicate a counter-intuitive finding that BERT trained with a
larger amount of pre-training data tends to have a better ability to condense
knowledge in comparatively relatively fewer parameters. Lastly, we investigate
the effect of the pre-training loss on essential sparsity and discover that
self-supervised learning (SSL) objectives trigger stronger emergent
sparsification properties than supervised learning (SL). Our codes are
available at \url{https://github.com/VITA-Group/essential_sparsity}.
- Abstract(参考訳): 大規模な事前学習型トランスフォーマーは、現代のディープラーニングにおけるショーステアラーであり、規模が大きくなるにつれてその内部に存在する相似パターンを理解することが重要である。
爆発的なパラメータ数によって、LTH(Lottery Ticket hypothesis)とその変種は、モデルサイズの増加に伴って悪化する反復的な列車-プルー・リトラクションルーチン(IMP)の高速計算とメモリボトルネックにより、それらの実用性を失っている。
本稿では,複数の大きな事前学習された視覚と言語トランスフォーマーにまたがるスパースパターンを包括的に研究する。
我々は,1ショットで最小の大きさの重みをリトレーニングせずに直接取り除く場合,性能低下がw.r.tよりもずっと早くなる急降下点で定義される本質的スパーシティの存在を提案する。
また,N:Mのスパーシティパターンと,現代の大規模言語モデル(Vicuna-7B)に有効であることを示す。
また, BERTの事前トレーニング中に急激なスペーサー化現象, すなわち, BERTは, 一定反復後の事前トレーニングにおいて, 突然, 急激なスペーサー化現象を示す。
さらに,より大量の事前学習データでトレーニングされたbertは,比較的少ないパラメータで知識を凝縮する能力が向上する傾向にあった。
最後に,学習前損失が本態性の空間性に及ぼす影響について検討し,自己教師付き学習(SSL)目標が教師付き学習(SL)よりも強い創発的スパシフィケーション特性を引き起こすことを明らかにする。
我々のコードは \url{https://github.com/VITA-Group/essential_sparsity} で利用可能です。
関連論文リスト
- An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - HyperSparse Neural Networks: Shifting Exploration to Exploitation
through Adaptive Regularization [18.786142528591355]
スパースニューラルネットワークは、リソース効率のよい機械学習アプリケーションを開発する上で重要な要素である。
本稿では,高密度をスパースネットワークに圧縮する適応正規化学習(ART)を提案する。
本手法は,事前学習したモデル知識を最大級の重みに圧縮する。
論文 参考訳(メタデータ) (2023-08-14T14:18:11Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Manifold attack [0.22419496088582863]
本稿では,元データから潜在表現への多様体保存(manifold learning)を強制する。
正則化のアプローチは,正則化の精度向上と,逆例の堅牢性に寄与することを示す。
論文 参考訳(メタデータ) (2020-09-13T09:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。