論文の概要: Pruning Large Language Models with Semi-Structural Adaptive Sparse Training
- arxiv url: http://arxiv.org/abs/2407.20584v2
- Date: Mon, 26 Aug 2024 13:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 20:50:26.524926
- Title: Pruning Large Language Models with Semi-Structural Adaptive Sparse Training
- Title(参考訳): 半構造適応スパース学習を用いた大規模言語モデルの構築
- Authors: Weiyu Huang, Yuezhou Hu, Guohao Jian, Jun Zhu, Jianfei Chen,
- Abstract要約: 適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 17.381160429641316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The tremendous success of Large Language Models (LLMs) across various complex tasks relies heavily on their substantial scale, which raises challenges during model deployment due to their large memory consumption. Recently, numerous studies have attempted to compress LLMs using one-shot pruning methods. However, these methods often experience considerable performance degradation on complex language understanding tasks, calling into question the feasibility of pruning in LLMs. To address this issue, we propose a pruning pipeline for semi-structured sparse models via retraining, termed Adaptive Sparse Trainer (AST). Unlike previous one-shot pruning methods, AST incrementally transforms dense models into sparse ones by applying decay to masked weights while allowing the model to adaptively select masks throughout the training process. Furthermore, we observe that using distillation with a dense model as the teacher can prevent the sparse model from falling into local optima and accelerate convergence. In addition, we incorporate extra well-initialized parameters to further enhance model performance with minimal increase in memory footprint. AST can significantly enhance model performance, approaching the level of dense models. When applied to the LLaMA2-7B model, AST reduces the zero-shot accuracy gap between dense and semi-structured sparse models to 1.12% across multiple zero-shot tasks, utilizing less than 0.4% of the pretraining tokens. Our work demonstrates the feasibility of deploying semi-structured sparse large language models and introduces a novel method for achieving highly compressed models when combined with existing quantization techniques.
- Abstract(参考訳): 様々な複雑なタスクにわたる大規模言語モデル(LLM)の驚異的な成功は、その相当な規模に大きく依存しています。
近年, ワンショットプルーニング法を用いてLLMを圧縮する研究が数多く行われている。
しかし、これらの手法は複雑な言語理解タスクにおいてかなりの性能劣化を経験し、LLMにおけるプルーニングの可能性に疑問を投げかける。
この問題に対処するために,適応スパーストレーナー (AST) と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
従来のワンショットプルーニング法とは異なり、ASTは、トレーニングプロセスを通して、モデルを適応的にマスクを選択することを可能にしながら、マスクの重みに減衰を施すことによって、密度の高いモデルをスパースモデルに段階的に変換する。
さらに,教師が高密度モデルを用いて蒸留を行うことで,スパースモデルが局所最適状態に陥るのを防止し,収束を加速できることを示す。
さらに,メモリフットプリントが最小限に抑えられ,モデル性能をさらに向上させるために,高度に初期化パラメータを付加した。
ASTはモデル性能を大幅に向上させ、高密度モデルのレベルに近づくことができる。
LLaMA2-7Bモデルに適用すると、ASTは密集したスパースモデルと半構造化されたスパースモデルのゼロショット精度ギャップを複数のゼロショットタスクで1.12%に減らし、事前訓練されたトークンの0.4%未満を利用する。
本研究は,半構造化されたスパース言語モデルの展開の実現可能性を示すとともに,既存の量子化技術と組み合わせることで,高度に圧縮されたモデルを実現する新しい手法を提案する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。