Fugu-MT 論文翻訳(概要): Progressive Binarization with Semi-Structured Pruning for LLMs

論文の概要: Progressive Binarization with Semi-Structured Pruning for LLMs

arxiv url: http://arxiv.org/abs/2502.01705v1
Date: Mon, 03 Feb 2025 13:30:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.534585
Title: Progressive Binarization with Semi-Structured Pruning for LLMs
Title（参考訳）: LLM用半構造化プルーニングによるプログレッシブバイナリ化
Authors: Xianglong Yan, Tianao Zhang, Zhiteng Li, Yulun Zhang,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。 LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
参考スコア（独自算出の注目度）: 36.32239429974179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable success in natural language processing tasks, but their high computational and memory demands pose challenges for deployment on resource-constrained devices. Binarization, as an efficient compression method that reduces model weights to just 1 bit, significantly lowers both computational and memory requirements. Despite this, the binarized LLM still contains redundancy, which can be further compressed. Semi-structured pruning provides a promising approach to achieve this, which offers a better trade-off between model performance and hardware efficiency. However, simply combining binarization with semi-structured pruning can lead to a significant performance drop. To address this issue, we propose a Progressive Binarization with Semi-Structured Pruning (PBS$^2$P) method for LLM compression. We first propose a Stepwise semi-structured Pruning with Binarization Optimization (SPBO). Our optimization strategy significantly reduces the total error caused by pruning and binarization, even below that of the no-pruning scenario. Furthermore, we design a Coarse-to-Fine Search (CFS) method to select pruning elements more effectively. Extensive experiments demonstrate that PBS$^2$P achieves superior accuracy across various LLM families and evaluation metrics, noticeably outperforming state-of-the-art (SOTA) binary PTQ methods. The code and models will be available at https://github.com/XIANGLONGYAN/PBS2P.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めてきたが、その高い計算量とメモリ要求は、リソースに制約のあるデバイスへの展開を困難にしている。バイナリ化は、モデル重みをたった1ビットに削減する効率的な圧縮方法であり、計算とメモリの要求の両方を大幅に削減する。それにもかかわらず、二項化LDMは依然として冗長性を有しており、さらに圧縮することができる。半構造化プルーニングは、これを実現するための有望なアプローチを提供する。しかし、バイナライゼーションと半構造化プルーニングを組み合わせるだけで、性能が大幅に低下する可能性がある。この問題に対処するため,LLM圧縮のためのPBS$^2$P法によるプログレッシブバイナリ化を提案する。まず、二元化最適化(SPBO)を用いたステップワイズ半構造化プルーニングを提案する。最適化手法は, 刈り込みやバイナライゼーションによる総誤差を, 未刈り込みシナリオよりも大幅に低減する。さらに,より効率的にプルーニング要素を選択するために,粗面探索法(CFS)を設計する。 PBS$^2$Pは様々なLLMファミリーと評価指標において優れた精度を達成し,SOTA(State-of-the-art)バイナリPTQ法よりも顕著に優れていることを示した。コードとモデルはhttps://github.com/XIANGLONGYAN/PBS2Pで入手できる。

関連論文リスト

Highly Efficient and Effective LLMs with Multi-Boolean Architectures [1.4195677954898822]
大型言語モデル(LLM)の複雑さを劇的に減らすための有望な戦略として、重み二項化が登場した。本稿では,LLMをマルチカーネルブールパラメータに効果的に変換する新しいフレームワークを提案する。提案手法は,近年の超低ビット量子化法とバイナライゼーション法より優れている。
論文参考訳（メタデータ） (2025-05-28T19:40:34Z)
SPAP: Structured Pruning via Alternating Optimization and Penalty Methods [2.1388885579612804]
大規模言語モデル(LLM)は、しばしば計算とメモリの要求によって制約される。最適化理論に基づくLLMのための新規かつ効率的な構造化プルーニングフレームワークであるSPAP(Structured Pruning via Alternating Optimization and Penalty Methods)を提案する。我々の研究は、モデル性能を保ちながらLLMを刈り取るための実用的で最適化駆動のソリューションを提供する。
論文参考訳（メタデータ） (2025-05-06T09:47:53Z)
Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文参考訳（メタデータ） (2025-02-05T20:47:44Z)
Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
Pivoting Factorization (PIFA) は、任意の低ランク表現のコンパクトな形式を教師なしで学習する新しい低ランク表現である。 PIFAは24.2%のメモリ節約と24.6%の高速化を実現している。 MPIFAは、MとPIFAをエンドツーエンドのフレームワークに統合し、既存の低ランクプルーニング手法よりも大幅に優れている。
論文参考訳（メタデータ） (2025-01-31T12:36:31Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
ARB-LLM: Alternating Refined Binarizations for Large Language Models [82.24826360906341]
ARB-LLMは、大規模言語モデル(LLM)に適した新しい1ビット後トレーニング量子化(PTQ)技術である。 ARB-LLM$_textRC$は同じサイズのFP16モデルを超えるのは初めてです。
論文参考訳（メタデータ） (2024-10-04T03:50:10Z)
A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。 FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。 OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文参考訳（メタデータ） (2024-08-07T12:33:46Z)
Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining [16.026565606764954]
我々は Transformer-based large language model (LLMs) のプルーニングプロセスを単純化する。出力近似の最適化から導いた2つの推論対応プルーニング基準を提案する。また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
論文参考訳（メタデータ） (2024-07-26T23:53:59Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文参考訳（メタデータ） (2023-05-24T08:18:35Z)
Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法であるワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文参考訳（メタデータ） (2022-10-08T19:19:29Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。