Fugu-MT 論文翻訳(概要): Progressive Binarization with Semi-Structured Pruning for LLMs

論文の概要: Progressive Binarization with Semi-Structured Pruning for LLMs

arxiv url: http://arxiv.org/abs/2502.01705v3
Date: Mon, 30 Jun 2025 05:16:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 19:22:01.993185
Title: Progressive Binarization with Semi-Structured Pruning for LLMs
Title（参考訳）: LLM用半構造化プルーニングによるプログレッシブバイナリ化
Authors: Xianglong Yan, Tianao Zhang, Zhiteng Li, Yulun Zhang,
Abstract要約: 本稿では,学習後圧縮フレームワークであるPBS$2$Pによるプログレッシブバイナリ化を提案する。 PBS$2$Pは、最先端のバイナリポストトレーニング量子化法を、複雑度と下流の精度の両方で一貫して上回っていることを示す。
参考スコア（独自算出の注目度）: 36.32239429974179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable progress in natural language processing, but their high computational and memory costs hinder deployment on resource-constrained devices. Binarization, which reduces model weights to 1 bit, is a promising solution for efficient inference. However, binarized LLMs still exhibit redundancy that can be further compressed. Semi-structured pruning offers a favorable trade-off between model performance and hardware efficiency, but naively combining it with binarization often leads to severe performance degradation. To address this, we propose Progressive Binarization with Semi-Structured Pruning (PBS$^2$P), a novel post-training compression framework. We propose Stepwise semi-structured Pruning with Binarization Optimization (SPBO) to jointly reduce pruning and binarization error. Additionally, we develop a Coarse-to-Fine Search (CFS) strategy to more effectively select pruning elements. Extensive experiments across multiple LLM families show that PBS$^2$P consistently outperforms state-of-the-art binary post-training quantization methods in both perplexity and downstream accuracy. The code and models will be available at: https://github.com/XIANGLONGYAN/PBS2P.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語処理において顕著な進歩を遂げているが、その高い計算とメモリコストは、リソースに制約のあるデバイスへの展開を妨げる。モデルウェイトを1ビットに削減するバイナリ化は、効率的な推論のための有望なソリューションである。しかし、二項化LDMはさらなる圧縮が可能な冗長性を示す。半構造化プルーニングは、モデル性能とハードウェア効率の良好なトレードオフを提供するが、これを双項化と組み合わせることで、しばしば性能が著しく低下する。そこで本研究では,半構造化プルーニング(PBS$^2$P)によるプログレッシブバイナリ化を提案する。本稿では,二値化最適化を用いたステップワイド半構造化プルーニングを提案し,プルーニングと二値化の誤差を両立させる。さらに、より効果的にプルーニング要素を選択するために、粗度検索(CFS)戦略を開発する。 PBS$^2$Pは、複数のLLMファミリーにわたる大規模な実験により、最先端の2進後の量子化法を、複雑度と下流の精度の両方で一貫して上回っていることが示されている。コードとモデルは、https://github.com/XIANGLONGYAN/PBS2P.comで入手できる。

関連論文リスト

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。 RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文参考訳（メタデータ） (2026-02-05T06:41:11Z)
RS-ORT: A Reduced-Space Branch-and-Bound Algorithm for Optimal Regression Trees [2.612627266839037]
MIP(Mixed-integer Programming)は最適な決定木を学習するための強力なフレームワークとして登場した。連続的な特徴を内在的にバイナライズすることは、グローバルな最適性を犠牲にし、しばしば不必要に深い木を産み出す。最適回帰木学習を2段階最適化問題として再放送し、RS-ORT(Reduceed-Space Optimal Regression Trees)を提案する。 RS-ORTは木構造変数のみに枝分かれする特殊分岐結合(BB)アルゴリズムである。
論文参考訳（メタデータ） (2025-10-27T22:17:09Z)
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。 Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文参考訳（メタデータ） (2025-09-28T13:27:38Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Highly Efficient and Effective LLMs with Multi-Boolean Architectures [1.4195677954898822]
大型言語モデル(LLM)の複雑さを劇的に減らすための有望な戦略として、重み二項化が登場した。本稿では,LLMをマルチカーネルブールパラメータに効果的に変換する新しいフレームワークを提案する。提案手法は,近年の超低ビット量子化法とバイナライゼーション法より優れている。
論文参考訳（メタデータ） (2025-05-28T19:40:34Z)
SPAP: Structured Pruning via Alternating Optimization and Penalty Methods [2.1388885579612804]
大規模言語モデル(LLM)は、しばしば計算とメモリの要求によって制約される。最適化理論に基づくLLMのための新規かつ効率的な構造化プルーニングフレームワークであるSPAP(Structured Pruning via Alternating Optimization and Penalty Methods)を提案する。我々の研究は、モデル性能を保ちながらLLMを刈り取るための実用的で最適化駆動のソリューションを提供する。
論文参考訳（メタデータ） (2025-05-06T09:47:53Z)
Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文参考訳（メタデータ） (2025-02-05T20:47:44Z)
Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
Pivoting Factorization (PIFA) は、任意の低ランク表現のコンパクトな形式を教師なしで学習する新しい低ランク表現である。 PIFAは24.2%のメモリ節約と24.6%の高速化を実現している。 MPIFAは、MとPIFAをエンドツーエンドのフレームワークに統合し、既存の低ランクプルーニング手法よりも大幅に優れている。
論文参考訳（メタデータ） (2025-01-31T12:36:31Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
ARB-LLM: Alternating Refined Binarizations for Large Language Models [82.24826360906341]
ARB-LLMは、大規模言語モデル(LLM)に適した新しい1ビット後トレーニング量子化(PTQ)技術である。 ARB-LLM$_textRC$は同じサイズのFP16モデルを超えるのは初めてです。
論文参考訳（メタデータ） (2024-10-04T03:50:10Z)
A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。 FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。 OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文参考訳（メタデータ） (2024-08-07T12:33:46Z)
Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining [16.026565606764954]
我々は Transformer-based large language model (LLMs) のプルーニングプロセスを単純化する。出力近似の最適化から導いた2つの推論対応プルーニング基準を提案する。また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
論文参考訳（メタデータ） (2024-07-26T23:53:59Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文参考訳（メタデータ） (2023-05-24T08:18:35Z)
Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法であるワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文参考訳（メタデータ） (2022-10-08T19:19:29Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。