論文の概要: Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution Optimization
- arxiv url: http://arxiv.org/abs/2503.09657v2
- Date: Tue, 18 Mar 2025 01:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 10:31:36.475108
- Title: Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution Optimization
- Title(参考訳): 大域空間分布最適化によるLLMの正確な50%構造解析
- Authors: Guanchen Li, Yixing Xu, Zeping Li, Ji Liu, Xuanwu Yin, Dong Li, Emad Barsoum,
- Abstract要約: T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。
実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。
その結果、T'yr-the-Prunerは最先端の構造解析を達成し、高密度モデルの性能の97%を維持しながら、Llama-3.1-70Bのパラメータの50%を除去した。
- 参考スコア(独自算出の注目度): 15.027017826182659
- License:
- Abstract: Structural pruning enhances hardware-agnostic inference efficiency for large language models (LLMs) but often struggles to maintain performance. Local pruning performs efficient layer-by-layer compression but ignores global topology. Global pruning has the potential to find the optimal solution although resource-intensive. However, existing methods tend to rank structural saliency uniformly, ignoring inter-structure dependencies and failing to achieve end-to-end optimization. To address these limitations, we propose T\'yr-the-Pruner, an efficient end-to-end search-based global structural pruning framework. This framework constructs a supernet by repeatedly applying local pruning across a range of sparsity ratios to each layer in an LLM, with the core goal of determining the optimal sparsity distribution under a target overall sparsity ratio. Concretely, we introduce an effective local pruning and an expectation error accumulation approach to improve supernet construction. Furthermore, we employ an iterative prune-and-search strategy with coarse-to-fine sparsity granularity to ensure efficient search convergence. Experimental results show that T\'yr-the-Pruner achieves state-of-the-art structural pruning, retaining 97% of the dense model's performance while removing a challenging 50% of Llama-3.1-70B's parameters.
- Abstract(参考訳): 構造的プルーニングは、大規模言語モデル(LLM)のハードウェアに依存しない推論効率を高めるが、しばしば性能を維持するのに苦労する。
局所プルーニングは効率的な層間圧縮を行うが、グローバルトポロジは無視する。
グローバルプルーニングは資源集約性はあるものの、最適解を見つける可能性がある。
しかし、既存の手法では、構造間の依存関係を無視し、エンドツーエンドの最適化を達成できないため、構造的なサリエンシを均一にランク付けする傾向にある。
これらの制約に対処するために,効率的なエンドツーエンド検索に基づくグローバルな構造解析フレームワークであるT\'yr-the-Prunerを提案する。
LLMにおける各層に対して局所的なプルーニングを連続的に適用してスーパーネットを構築し、その中核となる目的は、目標全体のスハーシティ比の下で最適なスハーシティ分布を決定することである。
具体的には,実効的な局所刈り込みと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。
さらに,探索収束性を確保するために,粗粒度と微細粒度の反復的プルーン・アンド・サーチ戦略を用いる。
実験の結果、T'yr-the-Prunerは最先端の構造解析を達成し、高密度モデルの性能の97%を維持しながら、Llama-3.1-70Bのパラメータの50%を除去した。
関連論文リスト
- Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。
彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。
LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - SlimGPT: Layer-wise Structured Pruning for Large Language Models [15.252798256418279]
Batched Greedy Pruning for rapid and near-optimal Pruning
インクリメンタルプルーニング比(Incrmental Pruning Ratio) - 非一様プルーニング戦略で、性能劣化を低減する。
LLaMAベンチマークの実験結果から,SlimGPTは他の手法よりも優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-12-24T02:49:50Z) - RL-Pruner: Structured Pruning Using Reinforcement Learning for CNN Compression and Acceleration [0.0]
RL-Prunerを提案する。このRL-Prunerは、強化学習を用いて最適プルーニング分布を学習する。
RL-Prunerは、モデル固有のプルーニング実装を必要とせずに、入力モデル内のフィルタ間の依存関係を自動的に抽出し、プルーニングを実行する。
論文 参考訳(メタデータ) (2024-11-10T13:35:10Z) - CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information [33.01180010689081]
CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。
まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。
その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T04:03:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。
クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。
tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。
理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文 参考訳(メタデータ) (2023-05-19T10:47:44Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Discretization-Aware Architecture Search [81.35557425784026]
本稿では,離散化対応アーキテクチャサーチ(DAtextsuperscript2S)を提案する。
中心となる考え方は、超ネットワークを所望のトポロジの構成に向けることであり、離散化による精度損失がほとんど軽減される。
標準画像分類ベンチマークの実験は、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2020-07-07T01:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。