論文の概要: MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
- arxiv url: http://arxiv.org/abs/2409.17481v1
- Date: Thu, 26 Sep 2024 02:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:28:14.018920
- Title: MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
- Title(参考訳): MaskLLM:大規模言語モデルのための学習可能な半構造化空間
- Authors: Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff
Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang
- Abstract要約: この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
- 参考スコア(独自算出の注目度): 91.4190318047519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are distinguished by their massive parameter
counts, which typically result in significant redundancy. This work introduces
MaskLLM, a learnable pruning method that establishes Semi-structured (or
``N:M'') Sparsity in LLMs, aimed at reducing computational overhead during
inference. Instead of developing a new importance criterion, MaskLLM explicitly
models N:M patterns as a learnable distribution through Gumbel Softmax
sampling. This approach facilitates end-to-end training on large-scale datasets
and offers two notable advantages: 1) High-quality Masks - our method
effectively scales to large datasets and learns accurate masks; 2)
Transferability - the probabilistic modeling of mask distribution enables the
transfer learning of sparsity across domains or tasks. We assessed MaskLLM
using 2:4 sparsity on various LLMs, including LLaMA-2, Nemotron-4, and GPT-3,
with sizes ranging from 843M to 15B parameters, and our empirical results show
substantial improvements over state-of-the-art methods. For instance, leading
approaches achieve a perplexity (PPL) of 10 or greater on Wikitext compared to
the dense model's 5.12 PPL, but MaskLLM achieves a significantly lower 6.72 PPL
solely by learning the masks with frozen weights. Furthermore, MaskLLM's
learnable nature allows customized masks for lossless application of 2:4
sparsity to downstream tasks or domains. Code is available at
\url{https://github.com/NVlabs/MaskLLM}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大きなパラメータ数によって区別される。
本研究は,Semi-structured(または ``N:M'') Sparsity in LLMsを確立する学習可能なプルーニング手法であるMaskLLMを紹介する。
新しい重要な基準を開発する代わりに、MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
このアプローチは、大規模データセットのエンドツーエンドトレーニングを促進し、次の2つの顕著なアドバンテージを提供する。
1)高品質マスク - 当社の手法は,大規模なデータセットに効果的にスケールし,正確なマスクを学習する。
2)伝達可能性(Transferability) - マスク分布の確率論的モデリングにより,領域やタスク間の疎さの伝達学習が可能になる。
LLaMA-2, Nemotron-4, GPT-3 など様々な LLM の2:4 間隔で MaskLLM の評価を行った。
例えば、先導的なアプローチは、密度の高いモデルの5.12 PPLと比較して、Wikitext上で10以上のパープレキシティ(PPL)を達成するが、MaskLLMは、凍結重量でマスクを学習することで、かなり低い6.72 PPLを達成する。
さらに、MaskLLMの学習可能な性質は、ダウンストリームタスクやドメインへの2:4のロスレス適用のためにカスタマイズされたマスクを可能にする。
コードは \url{https://github.com/NVlabs/MaskLLM} で入手できる。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning [17.638387297838936]
微調整の大きな言語モデル(LLM)はコストがかかる。
PEFTはパラメータのごく一部をトレーニングすることでこの問題に対処し、その成功は事前訓練されたモデルの表現性と柔軟性を明らかにする。
本稿では,PEFTの限界について検討し,その設計をさらに単純化し,標準設定を超えてトレーニング可能なパラメータの数を削減した。
予測される学習率が大きいと、ランダムマスキングはトレーニング可能なパラメータを少なくして、様々なタスクにおける標準PEFTアルゴリズムの性能と一致させることができる。
論文 参考訳(メタデータ) (2024-05-04T07:44:18Z) - SLM: End-to-end Feature Selection via Sparse Learnable Masks [12.081877372552606]
本稿では,特徴量とサンプル数の両方に関して,エンドツーエンドの特徴選択のための標準的アプローチを提案する。
SLMの中心には、シンプルだが効果的に学習可能なスパースマスクがあり、どの機能を選択するかを学ぶ。
我々は、SLMが選択した特徴数を正確に制御できるスケーリングメカニズムを導出する。
論文 参考訳(メタデータ) (2023-04-06T16:25:43Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。