論文の概要: Mosaic: Composite Projection Pruning for Resource-efficient LLMs
- arxiv url: http://arxiv.org/abs/2504.06323v1
- Date: Tue, 08 Apr 2025 11:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:21.417274
- Title: Mosaic: Composite Projection Pruning for Resource-efficient LLMs
- Title(参考訳): 資源効率LLMのための複合射影成形法
- Authors: Bailey J. Eccles, Leon Wong, Blesson Varghese,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の微粒化手法であるプロジェクションプルーニングを紹介する。
複合プロジェクションプルーニングを用いた刈り込みLDMの作成と展開を行う新しいシステムであるMosaicを開発した。
モザイクモデルは粗粒プルーニングで得られたモデルよりも84.2%低いパープレキシティと31.4%高い精度を達成する。
- 参考スコア(独自算出の注目度): 2.6831773062745863
- License:
- Abstract: Extensive compute and memory requirements limit the deployment of large language models (LLMs) on any hardware. Compression methods, such as pruning, can reduce model size, which in turn reduces resource requirements. State-of-the-art pruning is based on coarse-grained methods. They are time-consuming and inherently remove critical model parameters, adversely impacting the quality of the pruned model. This paper introduces projection pruning, a novel fine-grained method for pruning LLMs. In addition, LLM projection pruning is enhanced by a new approach we refer to as composite projection pruning - the synergistic combination of unstructured pruning that retains accuracy and structured pruning that reduces model size. We develop Mosaic, a novel system to create and deploy pruned LLMs using composite projection pruning. Mosaic is evaluated using a range of performance and quality metrics on multiple hardware platforms, LLMs, and datasets. Mosaic is 7.19x faster in producing models than existing approaches. Mosaic models achieve up to 84.2% lower perplexity and 31.4% higher accuracy than models obtained from coarse-grained pruning. Up to 67% faster inference and 68% lower GPU memory use is noted for Mosaic models.
- Abstract(参考訳): 大規模な計算とメモリの要求は、どんなハードウェアにも大きな言語モデル(LLM)をデプロイすることを制限する。
プルーニングのような圧縮手法は、モデルのサイズを減らし、リソースの要求を減らします。
State-of-the-art pruningは粗い粒度のメソッドに基づいている。
それらは時間がかかり、本質的に重要なモデルパラメータを取り除き、刈り取られたモデルの品質に悪影響を及ぼす。
本稿では, LLMの微細加工法であるプロジェクションプルーニングを紹介する。
さらに,LLMプロジェクションプルーニングは,モデルサイズを小さくする構造的プルーニングと精度を保った非構造的プルーニングの相乗的組み合わせである複合プロジェクションプルーニング(コンポジットプロジェクションプルーニング)によって強化される。
複合プロジェクションプルーニングを用いた刈り込みLDMの作成と展開を行う新しいシステムであるMosaicを開発した。
Mosaicは、複数のハードウェアプラットフォーム、LLM、データセット上で、さまざまなパフォーマンスと品質のメトリクスを使用して評価されている。
Mosaicは既存のアプローチよりも7.19倍高速でモデルを作ることができる。
モザイクモデルは粗粒プルーニングで得られたモデルよりも84.2%低いパープレキシティと31.4%高い精度を達成する。
Mosaicモデルでは、推論が最大67%高速で、GPUメモリ使用率が68%低いことが注目されている。
関連論文リスト
- Lightweight and Post-Training Structured Pruning for On-Device Large Lanaguage Models [11.93284417365518]
我々は,ハイブリッド・グラニュラリティ・プルーニング戦略を用いた軽量なポストトレーニング構造化プルーニング手法Compumを紹介する。
Compは、LLM-Prunerと比較して20%のプルーニング比でLLaMA-2-7Bモデルの性能を6.13%向上させる。
論文 参考訳(メタデータ) (2025-01-25T16:03:58Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes [72.09861461921663]
我々は,小型で高速かつ高精度な刈り込みモデルを実現するための,勾配のない摂動型刈り込み法を開発した。
また,Hugingface Open LLMリーダーボード上での4/6タスクにおける最先端のパフォーマンスを実現する,単一のA6000を用いた新しいサブ2Bモデルを作成するために,Bonsaiを利用した。
論文 参考訳(メタデータ) (2024-02-08T04:48:26Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。