論文の概要: LEAP: Learnable End-to-End Adaptive Pruning of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.17289v1
- Date: Sun, 17 May 2026 07:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.832887
- Title: LEAP: Learnable End-to-End Adaptive Pruning of Large Language Models
- Title(参考訳): LEAP: 大規模言語モデルの学習可能なエンド・ツー・エンド適応プルーニング
- Authors: Mohammad Mozaffari, Younes Hourri, Mohammad Rastegari, Mahyar Najibi,
- Abstract要約: 未構造化プルーニングの最先端手法は、最適脳サージオン原理から導かれる階層的なサロゲートである。
本稿では,この難易度パラメータ化をBernoulli-via-Gumbelシグモイド緩和法に置き換えるLEAPを提案する。
0.5Bから8Bパラメータの50%と60%の間隔で5つのLLMファミリーにまたがって、LEAPは6タスク平均ゼロショット精度をADMM平均で2.59ポイント改善する。
- 参考スコア(独自算出の注目度): 19.274512633962086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured sparsity is now natively accelerated by recent GPU kernels and dataflow hardware, shifting the bottleneck from inference execution to the pruning algorithm. State-of-the-art methods for unstructured LLM pruning are layer-wise surrogates derived from the Optimal Brain Surgeon principle, and they sacrifice end-to-end accuracy, especially under aggressive sparsity. End-to-end alternatives such as MaskLLM and PATCH show that learnable masks can close this gap, but their categorical-over-patterns parameterization scales with the number of valid masks per row and does not port to the unstructured setting. We introduce LEAP, which replaces this intractable parameterization with a per-weight Bernoulli-via-Gumbel- sigmoid relaxation that makes end-to-end unstructured mask learning tractable. Across five LLM families from 0.5B to 8B parameters at 50% and 60% sparsity, LEAP improves six-task average zero-shot accuracy by +2.59 points on average over ADMM, the best layer-wise baseline in our sweep.
- Abstract(参考訳): 最近のGPUカーネルとデータフローハードウェアによって、非構造化のスパーシリティがネイティブに高速化され、ボトルネックが推論実行からプルーニングアルゴリズムにシフトした。
構造化されていないLLM刈りの最先端の手法は、最適脳サージオン原理から導かれるレイヤーワイドサロゲートであり、特に攻撃的な間隔で、エンドツーエンドの精度を犠牲にしている。
MaskLLMやPATCHのようなエンドツーエンドの代替手法では、学習可能なマスクがこのギャップを埋めることができるが、それらのカテゴリ・オーバー・パターンのパラメータ化は行ごとの有効なマスクの数とスケールし、構造化されていない設定に移植されない。
本稿では,この難易度パラメータ化を,終端非構造化マスク学習をトラクタブルにするBernoulli-via-Gumbel-シグモイド緩和法に置き換えるLEAPを提案する。
0.5Bから8Bパラメータの50%と60%の間隔で5つのLLMファミリーでLEAPは6タスク平均ゼロショット精度をADMM以上の平均2.59ポイント改善する。
関連論文リスト
- SparseSwaps: Tractable LLM Pruning Mask Refinement at Scale [22.25809500403244]
本研究では,任意のプルーニングマスクから開始し,LLMスケールで効率的に動作させる,トラクタブルでシンプルな1-スワップアルゴリズムを提案する。
提案手法は,Wanda (Sun et al., 2023) 上での層当たりのプルーニング誤差を最大60%削減し,最先端のGPTアーキテクチャにおけるパープレキシティとゼロショット精度を一貫して向上させることを実証する。
論文 参考訳(メタデータ) (2025-12-11T18:47:48Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [87.64417894918506]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。