論文の概要: MergeMoE: Efficient Compression of MoE Models via Expert Output Merging
- arxiv url: http://arxiv.org/abs/2510.14436v1
- Date: Thu, 16 Oct 2025 08:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.78022
- Title: MergeMoE: Efficient Compression of MoE Models via Expert Output Merging
- Title(参考訳): MergeMoE: エキスパートアウトプットマージによるMoEモデルの効率的な圧縮
- Authors: Ruijie Miao, Yilun Yao, Zihan Wang, Zhiming Wang, Bairen Yi, LingJun Liu, Yikai Zhao, Tong Yang,
- Abstract要約: 最近提案されたMoEモデル圧縮手法であるエキスパートマージの理論解析について述べる。
本稿では, 数学的最適化を利用して圧縮行列を構成する方法であるMergeMoEを紹介する。
我々は,MergeMoEを複数のMoEモデル上で評価し,アルゴリズムが同じ圧縮比でベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 19.625938156839926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) technique has proven to be a promising solution to efficiently scale the model size, which has been widely applied in recent LLM advancements. However, the substantial memory overhead of MoE models has made their compression an important research direction. In this work, we provide a theoretical analysis of expert merging, a recently proposed technique for compressing MoE models. Rather than interpreting expert merging from the conventional perspective of parameter aggregation, we approach it from the perspective of merging experts' outputs. Our key insight is that the merging process can be interpreted as inserting additional matrices into the forward computation, which naturally leads to an optimization formulation. Building on this analysis, we introduce MergeMoE, a method that leverages mathematical optimization to construct the compression matrices. We evaluate MergeMoE on multiple MoE models and show that our algorithm consistently outperforms the baselines with the same compression ratios.
- Abstract(参考訳): The Mixture-of-Experts (MoE) technique has been proven to be promising solution to efficient scale the model size, has been wide applied in recent LLM advancement。
しかし、MoEモデルのメモリオーバーヘッドは大幅に増加し、圧縮は重要な研究方向となった。
本稿では,最近提案されたMoEモデル圧縮手法であるエキスパートマージの理論解析について述べる。
従来のパラメータアグリゲーションの観点から、専門家のマージを解釈するのではなく、専門家のアウトプットをマージする観点からアプローチする。
我々の重要な洞察は、マージングプロセスはフォワード計算に追加の行列を挿入するものとして解釈でき、それが自然に最適化の定式化に繋がるということである。
この解析に基づいて,数式最適化を利用して圧縮行列を構成するMergeMoEを提案する。
我々は,MergeMoEを複数のMoEモデル上で評価し,アルゴリズムが同じ圧縮比でベースラインを一貫して上回ることを示す。
関連論文リスト
- Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs [45.20965298945085]
本稿では,パラメータ干渉を緩和する手法,ルーティング,アーキテクチャの異なる専門家をマージするための新しい手法など,新たなMoEマージ手法を提案する。
複数の領域にわたる実験により,提案手法の有効性,微調整コストの低減,最先端手法の性能向上,MoEマージの適用性の向上が示された。
論文 参考訳(メタデータ) (2025-02-03T02:34:46Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。
MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T05:57:55Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。