論文の概要: HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space
- arxiv url: http://arxiv.org/abs/2509.22299v1
- Date: Fri, 26 Sep 2025 13:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.437773
- Title: HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space
- Title(参考訳): HEAPr:Hessianをベースとした効率的な原子力専門家のアウトプット空間での運用
- Authors: Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang,
- Abstract要約: HEAPrは、専門家を小さく、識別不能な原子エキスパートに分解する、新しい刈り取りアルゴリズムである。
これは、原子専門家の固有の特性を利用して、2階の情報を専門家パラメータから原子専門家パラメータに変換する。
これは、様々な圧縮率とベンチマークで、既存のエキスパートレベルのプルーニング手法よりも優れています。
- 参考スコア(独自算出の注目度): 12.872890364287345
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures in large language models (LLMs) deliver exceptional performance and reduced inference costs compared to dense LLMs. However, their large parameter counts result in prohibitive memory requirements, limiting practical deployment. While existing pruning methods primarily focus on expert-level pruning, this coarse granularity often leads to substantial accuracy degradation. In this work, we introduce HEAPr, a novel pruning algorithm that decomposes experts into smaller, indivisible atomic experts, enabling more precise and flexible atomic expert pruning. To measure the importance of each atomic expert, we leverage second-order information based on principles similar to Optimal Brain Surgeon (OBS) theory. To address the computational and storage challenges posed by second-order information, HEAPr exploits the inherent properties of atomic experts to transform the second-order information from expert parameters into that of atomic expert parameters, and further simplifies it to the second-order information of atomic expert outputs. This approach reduces the space complexity from $O(d^4)$, where d is the model's dimensionality, to $O(d^2)$. HEAPr requires only two forward passes and one backward pass on a small calibration set to compute the importance of atomic experts. Extensive experiments on MoE models, including DeepSeek MoE and Qwen MoE family, demonstrate that HEAPr outperforms existing expert-level pruning methods across a wide range of compression ratios and benchmarks. Specifically, HEAPr achieves nearly lossless compression at compression ratios of 20% ~ 25% in most models, while also reducing FLOPs nearly by 20%. The code can be found at \href{https://github.com/LLIKKE/HEAPr}{https://github.com/LLIKKE/HEAPr}.
- Abstract(参考訳): 大規模言語モデル (LLM) におけるMixture-of-Experts (MoE) アーキテクチャは、高密度LLMに比べて優れた性能と推論コストの低減を実現している。
しかし、その大きなパラメータはメモリの要求を禁止し、実際のデプロイメントを制限します。
既存のプルーニング法は主にエキスパートレベルのプルーニングに重点を置いているが、この粗い粒度はしばしば相当な精度の劣化をもたらす。
本研究では, 専門家をより小さく, 識別不能な原子エキスパートに分解し, より正確で柔軟な原子プルーニングを可能にする新しいプルーニングアルゴリズムであるHEAPrを紹介する。
それぞれの原子専門家の重要性を測定するために、最適脳サージオン(OBS)理論に似た原理に基づく2次情報を利用する。
2次情報によって引き起こされる計算と記憶の課題に対処するため、HEAPrは、原子専門家の固有の特性を利用して、2次情報を専門家パラメータから原子専門家パラメータに変換し、さらに原子専門家の出力の2次情報に単純化する。
このアプローチは空間の複雑さを$O(d^4)$から$O(d^2)$に縮める。
HEAPrは2回の前方通過と1回の後方通過で原子の専門家の重要性を計算する。
DeepSeek MoEやQwen MoEファミリを含むMoEモデルに関する大規模な実験は、HEAPrが既存のエキスパートレベルのプルーニングメソッドを幅広い圧縮率とベンチマークで上回っていることを実証している。
具体的には、ほとんどのモデルで20%~25%の圧縮比でほぼロスレス圧縮を実現し、FLOPを20%近く削減する。
コードは \href{https://github.com/LLIKKE/HEAPr}{https://github.com/LLIKKE/HEAPr} で見ることができる。
関連論文リスト
- Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。