論文の概要: Delta Decompression for MoE-based LLMs Compression
- arxiv url: http://arxiv.org/abs/2502.17298v1
- Date: Mon, 24 Feb 2025 16:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.655253
- Title: Delta Decompression for MoE-based LLMs Compression
- Title(参考訳): MoEを用いたLLM圧縮におけるデルタ減圧
- Authors: Hao Gu, Wei Li, Lujun Li, Qiyuan Zhu, Mark Lee, Shengjie Sun, Wei Xue, Yike Guo,
- Abstract要約: D2$-MoEは、MoE LLMのパラメータを減らすための新しいデルタ圧縮圧縮機である。
我々はそれらの重みを共有基底重みとユニークなデルタ重みに分解する。
実験では、私たちのアプローチの優位性を強調し、13%以上のパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 22.144081182788394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures in large language models (LLMs) achieve exceptional performance, but face prohibitive storage and memory requirements. To address these challenges, we present $D^2$-MoE, a new delta decompression compressor for reducing the parameters of MoE LLMs. Based on observations of expert diversity, we decompose their weights into a shared base weight and unique delta weights. Specifically, our method first merges each expert's weight into the base weight using the Fisher information matrix to capture shared components. Then, we compress delta weights through Singular Value Decomposition (SVD) by exploiting their low-rank properties. Finally, we introduce a semi-dynamical structured pruning strategy for the base weights, combining static and dynamic redundancy analysis to achieve further parameter reduction while maintaining input adaptivity. In this way, our $D^2$-MoE successfully compact MoE LLMs to high compression ratios without additional training. Extensive experiments highlight the superiority of our approach, with over 13% performance gains than other compressors on Mixtral|Phi-3.5|DeepSeek|Qwen2 MoE LLMs at 40$\sim$60% compression rates. Codes are available in https://github.com/lliai/D2MoE.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるMixture-of-Experts (MoE)アーキテクチャは、例外的なパフォーマンスを実現するが、ストレージとメモリの要求に直面する。
これらの課題に対処するために,新しいデルタ圧縮圧縮圧縮機である$D^2$-MoEを提案する。
専門的な多様性の観測に基づいて、それらの重量を共通のベースウェイトとユニークなデルタウェイトに分解する。
具体的には、まず各専門家の体重をフィッシャー情報行列を用いてベースウェイトにマージし、共有成分を捕捉する。
次に,その低ランク特性を利用して,Singular Value Decomposition (SVD) を用いてデルタ重みを圧縮する。
最後に, 静的および動的冗長解析を組み合わせることで, 入力適応性を維持しつつ, パラメータの低減を図ることを目的として, 基本重みに対する半動的構造化プルーニング戦略を提案する。
このようにして、我々の$D^2$-MoEは、余分なトレーニングを伴わずに、高い圧縮比でMoE LLMのコンパクト化に成功した。
実験の結果,Mixtral|Phi-3.5|DeepSeek|Qwen2 MoE LLMの圧縮速度40$\sim$60%で,他の圧縮機に比べて13%以上の性能向上を示した。
コードはhttps://github.com/lliai/D2MoEで入手できる。
関連論文リスト
- ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights [11.047879241587315]
我々は,LLMのメモリフットプリントを低減するために,新しい訓練後圧縮技術であるDeltaLLMを紹介する。
トレーニングでは、進行するモジュール置換法を採用し、低ランクモジュールの軽量なトレーニングは、スクラッチからトレーニングしたLLMと同等の大きさのLLMの性能を達成するのに十分であることを示す。
また,同数のパラメータを除去したJointDrop,LaCo,ShortGPT,SliceGPTの圧縮技術よりも優れていた。
論文 参考訳(メタデータ) (2025-01-30T18:59:55Z) - Lillama: Large Language Models Compression via Low-Rank Feature Distillation [8.090496457850852]
ライラマ(英: Lillama)は、低ランク重量で活性化を蒸留する圧縮法である。
1つのA100 GPUでMixtral-8x7Bを数分で圧縮し、100億のパラメータを削除し、元のパフォーマンスの95%以上を保持した。
非トランスフォーマーアーキテクチャを一般化し、99%のパフォーマンスを維持しながら、Mamba-3Bを20%圧縮する。
論文 参考訳(メタデータ) (2024-12-21T18:04:01Z) - EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
モデル圧縮問題をカスタマイズした補償問題に再構成する。
トレーニング不要な固有空間低ランク近似(EoRA)を提案する。
EoRAは、勾配ベースのトレーニングを必要とせずに、圧縮誘起エラーを直接最小化する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。
本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。
総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T14:30:02Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。
MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T05:57:55Z) - SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression [14.818355326032538]
Singular Value Decomposition (SVD)は、LLM(Large Language Models)圧縮のための有望なソリューションを提供する。
しかし、より小さな特異値の切り抜きは、圧縮損失が増加し、SVD切り込み後の圧縮重量の更新が欠如する可能性がある。
本稿では,既存の手法の限界に対処するSVD-LLM法を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:31:18Z) - Head-wise Shareable Attention for Large Language Models [56.92068213969036]
大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
本稿では,大規模言語モデルにおける頭部的共通性に着目した視点を示す。
論文 参考訳(メタデータ) (2024-02-19T04:19:36Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。