論文の概要: Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models
- arxiv url: http://arxiv.org/abs/2306.10460v1
- Date: Sun, 18 Jun 2023 03:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 20:33:24.448809
- Title: Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models
- Title(参考訳): instant soup: 安いプランニングアンサンブルを1枚のパスで作れば、大きなモデルから宝くじを引ける
- Authors: Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Ying Ding, Zhangyang Wang
- Abstract要約: Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
- 参考スコア(独自算出の注目度): 106.19385911520652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained transformers have been receiving explosive attention in the
past few years, due to their wide adaptability for numerous downstream
applications via fine-tuning, but their exponentially increasing parameter
counts are becoming a primary hurdle to even just fine-tune them without
industry-standard hardware. Recently, Lottery Ticket Hypothesis (LTH) and its
variants, have been exploited to prune these large pre-trained models
generating subnetworks that can achieve similar performance as their dense
counterparts, but LTH pragmatism is enormously inhibited by repetitive full
training and pruning routine of iterative magnitude pruning (IMP) which worsens
with increasing model size. Motivated by the recent observations of model
soups, which suggest that fine-tuned weights of multiple models can be merged
to a better minima, we propose Instant Soup Pruning (ISP) to generate lottery
ticket quality subnetworks, using a fraction of the original IMP cost by
replacing the expensive intermediate pruning stages of IMP with computationally
efficient weak mask generation and aggregation routine. More specifically,
during the mask generation stage, ISP takes a small handful of iterations using
varying training protocols and data subsets to generate many weak and noisy
subnetworks, and superpose them to average out the noise creating a
high-quality denoised subnetwork. Our extensive experiments and ablation on two
popular large-scale pre-trained models: CLIP (unexplored in pruning till date)
and BERT across multiple benchmark vision and language datasets validate the
effectiveness of ISP compared to several state-of-the-art pruning methods.
Codes are available at: \url{https://github.com/VITA-Group/instant_soup}
- Abstract(参考訳): 大規模な事前訓練されたトランスフォーマは、微調整による多数の下流アプリケーションへの適応性の高さから、ここ数年で爆発的な注目を集めてきたが、その指数関数的に増加するパラメータ数は、業界標準のハードウェアなしでそれらを微調整する上でも、大きなハードルとなっている。
近年、LTH(Lottery Ticket hypothesis)とその変種は、これらの大きな事前訓練されたモデルを用いて、密度の高いモデルと同等の性能を達成できるサブネットを創出するが、LTHプラグマティズムは、反復的なフルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく阻害され、モデルサイズが増加するにつれて悪化する。
モデルスープの最近の観察から,複数のモデルの微調整された重量をより小型化できる可能性が示唆されている。我々は,IMPの高価な中間プルーニング段階を計算効率の悪いマスク生成と集約ルーチンに置き換えることで,従来のIMPコストのごく一部を用いて,宝くじ品質のサブネットワークを生成するInstant Soup Pruning (ISP)を提案する。
具体的には、マスク生成の段階では、ISPは、様々なトレーニングプロトコルとデータサブセットを使用して、弱いノイズの多いサブネットを多数生成し、ノイズを平均化し、高品質のノイズを発生させる。
複数のベンチマークビジョンと言語データセットにわたるCLIP(未探索)とBERTの2つの大規模な事前訓練モデルに対する広範な実験とアブレーションにより、ISPの有効性がいくつかの最先端のプルーニング手法と比較して検証された。
コードは以下の通り。 \url{https://github.com/VITA-Group/instant_soup}
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Efficient Stitchable Task Adaptation [47.94819192325723]
そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
論文 参考訳(メタデータ) (2023-11-29T04:31:35Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Efficient Stein Variational Inference for Reliable Distribution-lossless
Network Pruning [23.22021752821507]
バニラPという新しい分布損失の無い刈り取り法を提案し,ベイズ処理における刈り取り抽選の理論的検討を行った。
本手法は,プルーニングモデルの信頼性を定量化しながら,高性能なスペーサーネットワークを実現する。
論文 参考訳(メタデータ) (2022-12-07T09:31:47Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Rethinking Network Pruning -- under the Pre-train and Fine-tune Paradigm [5.621336109915588]
スパースプルーニングがBERTモデルを大幅に圧縮することを示すのは,チャネル数や層数を減らすことよりも初めてである。
提案手法は,20倍の重み/FLOPを圧縮し,予測精度を損なうことなく,上位の競合よりも優れる。
論文 参考訳(メタデータ) (2021-04-18T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。