Fugu-MT 論文翻訳(概要): LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models

論文の概要: LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models

arxiv url: http://arxiv.org/abs/2408.10631v1
Date: Tue, 20 Aug 2024 08:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 14:44:19.975911
Title: LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models
Title（参考訳）: LLM-Barber: 大規模言語モデルのためのワンショットスポーザリティマスクのためのブロック対応リビルダー
Authors: Yupeng Su, Ziyi Guan, Xiaoqun Liu, Tianlai Jin, Dongkuan Wu, Graziano Chesi, Ngai Wong, Hao Yu,
Abstract要約: 大規模言語モデル(LLM)は大規模に大きく成長しており、効率的なモデルプルーニング技術を必要としている。 LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot) は, プレナードモデルのスポーシティマスクをリトレーニングや重量再構成なしに再構築する, ワンショットプルーニングフレームワークである。実験の結果,LLM-Barber は 1 つの A100 GPU 上で 7B から 13B のパラメータを持つモデルを 30 分で効率的にプルークできることがわかった。
参考スコア（独自算出の注目度）: 7.496469228171892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have grown significantly in scale, leading to a critical need for efficient model pruning techniques. Existing post-training pruning techniques primarily focus on measuring weight importance on converged dense models to determine salient weights to retain. However, they often overlook the changes in weight importance during the pruning process, which can lead to performance degradation in the pruned models. To address this issue, we present LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot), a novel one-shot pruning framework that rebuilds the sparsity mask of pruned models without any retraining or weight reconstruction. LLM-Barber incorporates block-aware error optimization across Self-Attention and MLP blocks, ensuring global performance optimization. Inspired by the recent discovery of prominent outliers in LLMs, LLM-Barber introduces an innovative pruning metric that identifies weight importance using weights multiplied by gradients. Our experiments show that LLM-Barber can efficiently prune models like LLaMA and OPT families with 7B to 13B parameters on a single A100 GPU in just 30 minutes, achieving state-of-the-art results in both perplexity and zero-shot performance across various language benchmarks. Code is available at https://github.com/YupengSu/LLM-Barber.
Abstract（参考訳）: 大規模言語モデル(LLM)は大規模に大きく成長しており、効率的なモデルプルーニング技術を必要としている。既存の訓練後のプルーニング技術は主に、保存すべき塩分重量を決定するために収束密度モデルにおける重みの重要度を測定することに焦点を当てている。しかし、彼らはしばしば刈り込み過程における重み付けの重要性の変化を見落とし、刈り込みモデルの性能低下につながる可能性がある。この問題に対処するため,我々は,再トレーニングや重量再構成を伴わずに刈り取られたモデルのスパーシティマスクを再構築する,新しいワンショットプルーニングフレームワーク LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot) を紹介した。 LLM-Barberは、自己注意ブロックとMLPブロックをまたいだブロック認識エラー最適化を導入し、グローバルなパフォーマンス最適化を実現している。 LLMにおける最近の顕著な外れ値発見に触発されて、LSM-バーバーは勾配に乗じて重みの重みを識別する革新的なプルーニング指標を導入した。 LLM-Barber は 1 つの A100 GPU 上で 7B から 13B のパラメータを持つ LLaMA や OPT ファミリなどのモデルを 30 分で効率的にプルークできることを示す。コードはhttps://github.com/YupengSu/LLM-Barber.comで入手できる。

関連論文リスト

EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models [25.058673320372677]
大規模言語モデル(LLM)は法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。本研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前学習を提案する。我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
論文参考訳（メタデータ） (2025-02-10T16:51:03Z)
Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。 1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文参考訳（メタデータ） (2025-02-05T18:57:40Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。 SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-02-18T12:44:15Z)
Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文参考訳（メタデータ） (2024-02-05T09:44:49Z)
Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文参考訳（メタデータ） (2023-11-08T18:59:54Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。