論文の概要: EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models
- arxiv url: http://arxiv.org/abs/2502.06663v2
- Date: Tue, 11 Feb 2025 19:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 10:26:44.782457
- Title: EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models
- Title(参考訳): EfficientLLM:アーキテクチャに依存しないエッジ言語モデルのためのスケーラブルなPruning-Aware Pretraining
- Authors: Xingrun Xing, Zheng Liu, Shitao Xiao, Boyan Gao, Yiming Liang, Wanpeng Zhang, Haokun Lin, Guoqi Li, Jiajun Zhang,
- Abstract要約: 大規模言語モデル(LLM)は法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。
本研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前学習を提案する。
我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
- 参考スコア(独自算出の注目度): 25.058673320372677
- License:
- Abstract: Modern large language models (LLMs) driven by scaling laws, achieve intelligence emergency in large model sizes. Recently, the increasing concerns about cloud costs, latency, and privacy make it an urgent requirement to develop compact edge language models. Distinguished from direct pretraining that bounded by the scaling law, this work proposes the pruning-aware pretraining, focusing on retaining performance of much larger optimized models. It features following characteristics: 1) Data-scalable: we introduce minimal parameter groups in LLM and continuously optimize structural pruning, extending post-training pruning methods like LLM-Pruner and SparseGPT into the pretraining phase. 2) Architecture-agnostic: the LLM architecture is auto-designed using saliency-driven pruning, which is the first time to exceed SoTA human-designed LLMs in modern pretraining. We reveal that it achieves top-quality edge language models, termed EfficientLLM, by scaling up LLM compression and extending its boundary. EfficientLLM significantly outperforms SoTA baselines with $100M \sim 1B$ parameters, such as MobileLLM, SmolLM, Qwen2.5-0.5B, OLMo-1B, Llama3.2-1B in common sense benchmarks. As the first attempt, EfficientLLM bridges the performance gap between traditional LLM compression and direct pretraining methods, and we will fully open source at https://github.com/Xingrun-Xing2/EfficientLLM.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。
近年、クラウドコスト、レイテンシ、プライバシに関する懸念が高まっているため、コンパクトなエッジ言語モデルを開発する必要がある。
スケーリング法則に拘束される直接事前訓練から逸脱したこの研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前訓練を提案する。
特徴は以下の通りである。
1) LLMにおける最小パラメータ群を導入し, 構造的プルーニングを継続的に最適化し, LLM-Pruner や SparseGPT などの訓練後プルーニング手法を事前訓練フェーズに拡張する。
2) アーキテクチャ非依存: LLMアーキテクチャはサリエンシ駆動プルーニングを用いて自動設計される。
我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
効率的なLLMは、MobileLLM、SmolLM、Qwen2.5-0.5B、OLMo-1B、Llama3.2-1Bなどの1億ドルのパラメータでSoTAのベースラインを著しく上回っている。
最初の試みとして、EfficientLLMは従来のLLM圧縮と直接事前トレーニングメソッドのパフォーマンスギャップを埋めます。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。