論文の概要: ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.07831v2
- Date: Sat, 3 Aug 2024 20:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:38:40.926378
- Title: ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models
- Title(参考訳): ALPS:大規模言語モデルのための高度にスパースなワンショットプルーニングの最適化
- Authors: Xiang Meng, Kayhan Behdin, Haoyue Wang, Rahul Mazumder,
- Abstract要約: ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
- 参考スコア(独自算出の注目度): 14.310720048047136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive performance of Large Language Models (LLMs) across various natural language processing tasks comes at the cost of vast computational resources and storage requirements. One-shot pruning techniques offer a way to alleviate these burdens by removing redundant weights without the need for retraining. Yet, the massive scale of LLMs often forces current pruning approaches to rely on heuristics instead of optimization-based techniques, potentially resulting in suboptimal compression. In this paper, we introduce ALPS, an optimization-based framework that tackles the pruning problem using the operator splitting technique and a preconditioned conjugate gradient-based post-processing step. Our approach incorporates novel techniques to accelerate and theoretically guarantee convergence while leveraging vectorization and GPU parallelism for efficiency. ALPS substantially outperforms state-of-the-art methods in terms of the pruning objective and perplexity reduction, particularly for highly sparse models. On the OPT-30B model with 70% sparsity, ALPS achieves a 13% reduction in test perplexity on the WikiText dataset and a 19% improvement in zero-shot benchmark performance compared to existing methods.
- Abstract(参考訳): 様々な自然言語処理タスクにおけるLLM(Large Language Models)の印象的なパフォーマンスは、膨大な計算リソースとストレージ要件の犠牲になる。
ワンショットプルーニング技術は、再訓練を必要とせず、余剰重量を除去することで、これらの負担を軽減する手段を提供する。
しかし、LLMの大規模化は、最適化に基づく手法の代わりにヒューリスティックに頼らざるを得ず、潜在的に準最適圧縮をもたらす。
本稿では,演算子分割手法と条件付き共役勾配に基づく後処理ステップを用いて,プルーニング問題に対処する最適化ベースのフレームワークであるALPSを紹介する。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
ALPSは、特にスパースモデルにおいて、プルーニング目的とパープレキシティ低減の観点から、最先端の手法を大幅に上回っている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
関連論文リスト
- Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - UniPTS: A Unified Framework for Proficient Post-Training Sparsity [67.16547529992928]
Post-Traiing Sparsity (PTS)は、必要な限られたデータで効率的なネットワークスパシティを追求する、新たに登場した道である。
本稿では,従来のスパシティの性能をPSSの文脈に大きく変化させる3つの基本因子を変換することで,この相違を解消しようとする。
我々のフレームワークはUniPTSと呼ばれ、広範囲のベンチマークで既存のPTSメソッドよりも優れていることが検証されている。
論文 参考訳(メタデータ) (2024-05-29T06:53:18Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - Fast as CHITA: Neural Network Pruning with Combinatorial Optimization [9.440450886684603]
本稿では,複数重みの重み付けと重み付けの併用効果を両立する最適化型プルーニングフレームワークを提案する。
我々のアプローチであるCHITAは、古典的なBrain Surgeonフレームワークを拡張し、スピード、メモリ、パフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-02-28T15:03:18Z) - Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization [10.592277756185046]
大規模分散最適化は、教師付き機械学習モデルのトレーニングのデフォルトツールとなっている。
我々は,局所的損失に伴う滑らかさ行列を最大限に活用できる新しいコミュニケーションスパーシフィケーション戦略を提案する。
論文 参考訳(メタデータ) (2021-02-14T20:55:02Z) - Transferable Graph Optimizers for ML Compilers [18.353830282858834]
計算グラフ最適化(GO)のためのエンドツーエンドで転送可能な深層強化学習法を提案する。
GOは個々のノードに対して自動回帰ではなく,グラフ全体の決定を生成する。
GOは、人間の専門家よりも21%改善し、先行技術よりも18%改善し、15倍早く収束する。
論文 参考訳(メタデータ) (2020-10-21T20:28:33Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。