論文の概要: LLM Pruning and Distillation in Practice: The Minitron Approach
- arxiv url: http://arxiv.org/abs/2408.11796v3
- Date: Sat, 30 Nov 2024 22:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:59.972581
- Title: LLM Pruning and Distillation in Practice: The Minitron Approach
- Title(参考訳): LLMプルーニングと蒸留の実践:ミニトロンアプローチ
- Authors: Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Pavlo Molchanov, Mohammad Shoeybi, Jan Kautz, Ameya Sunil Mahabaleshwarkar, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Zijia Chen, Yoshi Suhara, Shizhe Diao, Chenhan Yu, Wei-Chun Chen, Hayley Ross, Daniel Korzekwa, Oluwatobi Olabiyi, Ashwath Aithal, Bryan Catanzaro,
- Abstract要約: Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。
1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。
このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
- 参考スコア(独自算出の注目度): 57.57486238643575
- License:
- Abstract: We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license.
- Abstract(参考訳): Llama 3.1 8B と Mistral NeMo 12B をそれぞれ 4B と 8B のパラメータに圧縮する。
本研究は,(1)深度刈り込みと(2)隠れ/保持/MLP(幅)刈り込みの2つの異なるプルーニング戦略について検討し,LM評価ハーネスによる共通ベンチマークの結果について検討する。
モデルはNeMo Alignerと整列し、インストラクションされたバージョンでテストされる。
このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8B(MN-Minitron-8B)モデルを生成する。
元のデータにアクセスできなくても、蒸留データセット上でわずかに微調整された教師モデルを構築することは有益であることがわかった。
私たちはHugging Faceのベースモデルの重みを寛容なライセンスでオープンソースにしています。
関連論文リスト
- MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。