論文の概要: HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space
- arxiv url: http://arxiv.org/abs/2509.22299v1
- Date: Fri, 26 Sep 2025 13:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.437773
- Title: HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space
- Title(参考訳): HEAPr:Hessianをベースとした効率的な原子力専門家のアウトプット空間での運用
- Authors: Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang,
- Abstract要約: HEAPrは、専門家を小さく、識別不能な原子エキスパートに分解する、新しい刈り取りアルゴリズムである。
これは、原子専門家の固有の特性を利用して、2階の情報を専門家パラメータから原子専門家パラメータに変換する。
これは、様々な圧縮率とベンチマークで、既存のエキスパートレベルのプルーニング手法よりも優れています。
- 参考スコア(独自算出の注目度): 12.872890364287345
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures in large language models (LLMs) deliver exceptional performance and reduced inference costs compared to dense LLMs. However, their large parameter counts result in prohibitive memory requirements, limiting practical deployment. While existing pruning methods primarily focus on expert-level pruning, this coarse granularity often leads to substantial accuracy degradation. In this work, we introduce HEAPr, a novel pruning algorithm that decomposes experts into smaller, indivisible atomic experts, enabling more precise and flexible atomic expert pruning. To measure the importance of each atomic expert, we leverage second-order information based on principles similar to Optimal Brain Surgeon (OBS) theory. To address the computational and storage challenges posed by second-order information, HEAPr exploits the inherent properties of atomic experts to transform the second-order information from expert parameters into that of atomic expert parameters, and further simplifies it to the second-order information of atomic expert outputs. This approach reduces the space complexity from $O(d^4)$, where d is the model's dimensionality, to $O(d^2)$. HEAPr requires only two forward passes and one backward pass on a small calibration set to compute the importance of atomic experts. Extensive experiments on MoE models, including DeepSeek MoE and Qwen MoE family, demonstrate that HEAPr outperforms existing expert-level pruning methods across a wide range of compression ratios and benchmarks. Specifically, HEAPr achieves nearly lossless compression at compression ratios of 20% ~ 25% in most models, while also reducing FLOPs nearly by 20%. The code can be found at \href{https://github.com/LLIKKE/HEAPr}{https://github.com/LLIKKE/HEAPr}.
- Abstract(参考訳): 大規模言語モデル (LLM) におけるMixture-of-Experts (MoE) アーキテクチャは、高密度LLMに比べて優れた性能と推論コストの低減を実現している。
しかし、その大きなパラメータはメモリの要求を禁止し、実際のデプロイメントを制限します。
既存のプルーニング法は主にエキスパートレベルのプルーニングに重点を置いているが、この粗い粒度はしばしば相当な精度の劣化をもたらす。
本研究では, 専門家をより小さく, 識別不能な原子エキスパートに分解し, より正確で柔軟な原子プルーニングを可能にする新しいプルーニングアルゴリズムであるHEAPrを紹介する。
それぞれの原子専門家の重要性を測定するために、最適脳サージオン(OBS)理論に似た原理に基づく2次情報を利用する。
2次情報によって引き起こされる計算と記憶の課題に対処するため、HEAPrは、原子専門家の固有の特性を利用して、2次情報を専門家パラメータから原子専門家パラメータに変換し、さらに原子専門家の出力の2次情報に単純化する。
このアプローチは空間の複雑さを$O(d^4)$から$O(d^2)$に縮める。
HEAPrは2回の前方通過と1回の後方通過で原子の専門家の重要性を計算する。
DeepSeek MoEやQwen MoEファミリを含むMoEモデルに関する大規模な実験は、HEAPrが既存のエキスパートレベルのプルーニングメソッドを幅広い圧縮率とベンチマークで上回っていることを実証している。
具体的には、ほとんどのモデルで20%~25%の圧縮比でほぼロスレス圧縮を実現し、FLOPを20%近く削減する。
コードは \href{https://github.com/LLIKKE/HEAPr}{https://github.com/LLIKKE/HEAPr} で見ることができる。
関連論文リスト
- PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference [17.441141633991197]
本稿では,2つの重要なイノベーションを通じて高精度かつ効率的な推論を実現する,トレーニング不要なMoE圧縮手法であるPuzzleMoEを紹介する。
第一に、PuzzleMoEは要素単位の重量冗長性と特殊化を識別してスパースエキスパートマージを行う。
第二に、バイナリマスクとサインの保存のオーバーヘッドを避けるために、PuzzleMoEは未使用の指数ビットを再利用するビットパック符号化方式を導入した。
論文 参考訳(メタデータ) (2025-11-06T20:53:02Z) - REAP the Experts: Why Pruning Prevails for One-Shot MoE compression [5.517309667435783]
専門家の刈り取りは、生成タスクにおいて優れた戦略であることを示す。
ルータ重み付きエキスパートアクティベーション・プルーニング(REAP)を提案する。
提案手法は,Qwen3-Coder-480B と Kimi-K2 を用いて,コード生成およびツール呼び出しタスクの無作為な圧縮を実現する。
論文 参考訳(メタデータ) (2025-10-15T18:29:28Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。