論文の概要: E$^3$-Pruner: Towards Efficient, Economical, and Effective Layer Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.17205v1
- Date: Fri, 21 Nov 2025 12:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.016726
- Title: E$^3$-Pruner: Towards Efficient, Economical, and Effective Layer Pruning for Large Language Models
- Title(参考訳): E$^3$-Pruner:大規模言語モデルのための効率的・経済的・効果的なレイヤー・プルーニングを目指して
- Authors: Tao Yuan, Haoli Bai, Yinfei Pan, Xuyang Cao, Tianyu Zhang, Lu Hou, Ting Hu, Xianzhi Yu,
- Abstract要約: レイヤープルーニング(Layer pruning)は、モデル圧縮のためのハードウェアフレンドリーなアプローチである。
微分可能なマスク最適化法と、エントロピー対応の適応的知識蒸留戦略である。
96%の精度で オリジナルのモデルから たったの0.8%の低下です
- 参考スコア(独自算出の注目度): 24.195465096877196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing size of large language models, layer pruning has gained increased attention as a hardware-friendly approach for model compression. However, existing layer pruning methods struggle to simultaneously address key practical deployment challenges, including performance degradation, high training costs, and limited acceleration. To overcome these limitations, we propose \name, a task-\underline{E}ffective, training-\underline{E}conomical and inference-\underline{E}fficient layer pruning framework. \namespace introduces two key innovations: (1) a differentiable mask optimization method using a Gumbel-TopK sampler, enabling efficient and precise pruning mask search; and (2) an entropy-aware adaptive knowledge distillation strategy that enhances task performance. Extensive experiments over diverse model architectures and benchmarks demonstrate the superiority of our method over state-of-the-art approaches. Notably, \namespace achieves 96\% accuracy, a mere 0.8\% drop from the original model (96.8\%) on MATH-500 when pruning 25\% layers of Qwen3-32B, outperforming existing SOTA (95\%), with a 1.33$\times$ inference speedup by consuming merely 0.5B tokens (0.5\% of the post-training data volume).
- Abstract(参考訳): 大規模言語モデルのサイズが大きくなるにつれて、レイヤープルーニングは、モデル圧縮のためのハードウェアフレンドリーなアプローチとして注目されるようになった。
しかし、既存のレイヤプルーニング手法は、性能劣化、高いトレーニングコスト、限定的なアクセラレーションなど、重要なデプロイ課題に同時に対処するのに苦労している。
これらの制限を克服するために、タスク-\underline{E}ffective、トレーニング-\underline{E}conomical and inference-\underline{E}fficient layer pruning frameworkを提案する。
また,(1)Gumbel-TopKサンプルを用いた識別可能なマスク最適化手法,(2)タスク性能を向上させるエントロピー対応型適応知識蒸留手法を提案する。
多様なモデルアーキテクチャとベンチマークに対する広範な実験は、我々の手法が最先端のアプローチよりも優れていることを示す。
特に、Qwen3-32Bの25倍の層をプルーニングすると、MATH-500のオリジナルのモデル(96.8倍)から0.8倍の精度で、既存のSOTA(95倍)を上回り、1.33$\times$推論速度は0.5B(後処理データボリュームの0.5倍)しか消費しない。
関連論文リスト
- The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models [33.90597962418094]
大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
論文 参考訳(メタデータ) (2025-10-25T16:40:17Z) - Beyond Random: Automatic Inner-loop Optimization in Dataset Distillation [11.37339433547758]
データセット蒸留のためのAT-BPTT(Automatic Truncated Backproagation Through Time)を提案する。
AT-BPTTは、内在勾配の挙動に応じて、トラニケート位置とウィンドウサイズの両方に適応する。
CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet-1Kの実験では、AT-BPTTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-10-06T14:22:28Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - A Simple Linear Patch Revives Layer-Pruned Large Language Models [58.056251480151104]
大規模言語モデル(LLM)の圧縮技術として広く使われているレイヤプルーニング(Layer pruning)が登場している。
textscLinearPatchはプルーニングインターフェイスで2つの操作を1つの行列に乗算する。
パッチはメモリ効率の悪いオフライン蒸留によって5Kの未ラベルのサンプルでさらに洗練され、1つのGPUでわずか30分で95.16%に保留できる。
論文 参考訳(メタデータ) (2025-05-30T15:06:08Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。
高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。
1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文 参考訳(メタデータ) (2025-02-05T18:57:40Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。