論文の概要: Delta Decompression for MoE-based LLMs Compression
- arxiv url: http://arxiv.org/abs/2502.17298v1
- Date: Mon, 24 Feb 2025 16:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:04.572201
- Title: Delta Decompression for MoE-based LLMs Compression
- Title(参考訳): MoEを用いたLLM圧縮におけるデルタ減圧
- Authors: Hao Gu, Wei Li, Lujun Li, Qiyuan Zhu, Mark Lee, Shengjie Sun, Wei Xue, Yike Guo,
- Abstract要約: D2$-MoEは、MoE LLMのパラメータを減らすための新しいデルタ圧縮圧縮機である。
我々はそれらの重みを共有基底重みとユニークなデルタ重みに分解する。
実験では、私たちのアプローチの優位性を強調し、13%以上のパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 22.144081182788394
- License:
- Abstract: Mixture-of-Experts (MoE) architectures in large language models (LLMs) achieve exceptional performance, but face prohibitive storage and memory requirements. To address these challenges, we present $D^2$-MoE, a new delta decompression compressor for reducing the parameters of MoE LLMs. Based on observations of expert diversity, we decompose their weights into a shared base weight and unique delta weights. Specifically, our method first merges each expert's weight into the base weight using the Fisher information matrix to capture shared components. Then, we compress delta weights through Singular Value Decomposition (SVD) by exploiting their low-rank properties. Finally, we introduce a semi-dynamical structured pruning strategy for the base weights, combining static and dynamic redundancy analysis to achieve further parameter reduction while maintaining input adaptivity. In this way, our $D^2$-MoE successfully compact MoE LLMs to high compression ratios without additional training. Extensive experiments highlight the superiority of our approach, with over 13% performance gains than other compressors on Mixtral|Phi-3.5|DeepSeek|Qwen2 MoE LLMs at 40$\sim$60% compression rates. Codes are available in https://github.com/lliai/D2MoE.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるMixture-of-Experts (MoE)アーキテクチャは、例外的なパフォーマンスを実現するが、ストレージとメモリの要求に直面する。
これらの課題に対処するために,新しいデルタ圧縮圧縮圧縮機である$D^2$-MoEを提案する。
専門的な多様性の観測に基づいて、それらの重量を共通のベースウェイトとユニークなデルタウェイトに分解する。
具体的には、まず各専門家の体重をフィッシャー情報行列を用いてベースウェイトにマージし、共有成分を捕捉する。
次に,その低ランク特性を利用して,Singular Value Decomposition (SVD) を用いてデルタ重みを圧縮する。
最後に, 静的および動的冗長解析を組み合わせることで, 入力適応性を維持しつつ, パラメータの低減を図ることを目的として, 基本重みに対する半動的構造化プルーニング戦略を提案する。
このようにして、我々の$D^2$-MoEは、余分なトレーニングを伴わずに、高い圧縮比でMoE LLMのコンパクト化に成功した。
実験の結果,Mixtral|Phi-3.5|DeepSeek|Qwen2 MoE LLMの圧縮速度40$\sim$60%で,他の圧縮機に比べて13%以上の性能向上を示した。
コードはhttps://github.com/lliai/D2MoEで入手できる。
関連論文リスト
- DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。
本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。
総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T14:30:02Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。
MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T05:57:55Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Demystifying the Compression of Mixture-of-Experts Through a Unified Framework [17.436189502801163]
専門家の混合(MoE)アプローチは、専門家のサブセットのみを動的に選択し、活性化することによってこの問題に対処する。
MoEは潜在的な冗長性(パラメータなど)と余分なコスト(通信オーバーヘッドなど)を導入している。
まずこのギャップを,主流圧縮メソッドをシームレスに統合するだけでなく,MoE圧縮を体系的に理解する上でも有効である,最先端の統一フレームワークで埋める。
論文 参考訳(メタデータ) (2024-06-04T17:18:40Z) - Head-wise Shareable Attention for Large Language Models [56.92068213969036]
大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
本稿では,大規模言語モデルにおける頭部的共通性に着目した視点を示す。
論文 参考訳(メタデータ) (2024-02-19T04:19:36Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。