論文の概要: Compact Language Models via Pruning and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2407.14679v1
- Date: Fri, 19 Jul 2024 21:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:23:47.573808
- Title: Compact Language Models via Pruning and Knowledge Distillation
- Title(参考訳): プルーニングと知識蒸留によるコンパクト言語モデル
- Authors: Saurav Muralidharan, Sharath Turuvekere Sreenivas, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov,
- Abstract要約: ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
- 参考スコア(独自算出の注目度): 61.56557874432008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) targeting different deployment scales and sizes are currently produced by training each variant from scratch; this is extremely compute-intensive. In this paper, we investigate if pruning an existing LLM and then re-training it with a fraction (<3%) of the original training data can be a suitable alternative to repeated, full retraining. To this end, we develop a set of practical and effective compression best practices for LLMs that combine depth, width, attention and MLP pruning with knowledge distillation-based retraining; we arrive at these best practices through a detailed empirical exploration of pruning strategies for each axis, methods to combine axes, distillation strategies, and search techniques for arriving at optimal compressed architectures. We use this guide to compress the Nemotron-4 family of LLMs by a factor of 2-4x, and compare their performance to similarly-sized models on a variety of language modeling tasks. Deriving 8B and 4B models from an already pretrained 15B model using our approach requires up to 40x fewer training tokens per model compared to training from scratch; this results in compute cost savings of 1.8x for training the full model family (15B, 8B, and 4B). Minitron models exhibit up to a 16% improvement in MMLU scores compared to training from scratch, perform comparably to other community models such as Mistral 7B, Gemma 7B and Llama-3 8B, and outperform state-of-the-art compression techniques from the literature. We have open-sourced Minitron model weights on Huggingface, with corresponding supplementary material including example code available on GitHub.
- Abstract(参考訳): 異なるデプロイメントスケールとサイズをターゲットにした大規模言語モデル(LLM)は、現在、各変種をスクラッチからトレーニングすることで作成されている。
本稿では,既存のLLMを刈り取って,元のトレーニングデータの分数 (3%) で再トレーニングすることが,反復的かつ完全なリトレーニングの代替となるかを検討する。
本研究は, LLMの深度, 幅, 注目度, MLP プルーニングと知識蒸留に基づく再訓練を組み合わせ, 各軸のプルーニング戦略, 軸の組合せ, 蒸留方法, 最適圧縮アーキテクチャに到達するための探索手法の詳細な検討を通じて, それらのベストプラクティスに到達した。
このガイドを用いて,LLMのネモトロン4ファミリーを2~4倍の係数で圧縮し,様々な言語モデリングタスクにおいて同様の大きさのモデルと比較する。
提案手法を用いて,すでにトレーニング済みの15Bモデルから8Bおよび4Bモデルを抽出するには,スクラッチからトレーニングするよりも,モデル毎のトレーニングトークンを最大40倍削減する必要がある。
ミニトロンモデルは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%向上し、Mistral 7B、Gemma 7B、Llama-3 8Bといった他のコミュニティモデルと互換性があり、文献による最先端の圧縮技術よりも優れている。
私たちはHuggingfaceをベースとしたMinitronモデルウェイトをオープンソースで公開しています。
関連論文リスト
- Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - A Teacher Is Worth A Million Instructions [4.322454918650575]
提案手法を用いた微調整Mistral 7Bと2x7Bは、7Bおよび13B以上のパラメータを持つ最先端言語モデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-27T11:48:25Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Self-Distillation with Meta Learning for Knowledge Graph Completion [26.268302804627726]
知識グラフ補完のためのメタラーニングを用いた自己蒸留フレームワークを提案する。
本稿ではまず,大規模ソースモデルから小さなプルーニングモデルを得るための動的プルーニング手法を提案する。
そこで我々は,ソースモデルからプルーンドモデルへの包括的知識を蒸留するための一段階のメタ自己蒸留法を提案する。
特に,1回の反復でソースモデルと一緒に訓練されたプルーンドモデルの性能を利用して,ソースモデルの知識伝達能力を向上させる。
論文 参考訳(メタデータ) (2023-05-20T15:12:25Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Multi-stage Pre-training over Simplified Multimodal Pre-training Models [35.644196343835674]
本稿では, 単語, 句, 文, 画像の粒度の異なる情報を用いて, モデルを段階的に事前訓練する多段階事前学習法を提案する。
また、限られたコーパスから多種多様な知識を効率的に捉えるために、異なる段階における情報粒度に適したいくつかの事前学習タスクを設計する。
実験結果から,本手法はすべての下流タスクにおいて元のLXMERTモデルに匹敵する性能を示し,画像テキスト検索タスクでは元のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-07-22T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。