論文の概要: Efficiently Editing Mixture-of-Experts Models with Compressed Experts
- arxiv url: http://arxiv.org/abs/2503.00634v1
- Date: Sat, 01 Mar 2025 22:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:23:08.916669
- Title: Efficiently Editing Mixture-of-Experts Models with Compressed Experts
- Title(参考訳): 圧縮専門家によるエキスパート混在モデルの効率的な編集
- Authors: Yifei He, Yang Liu, Chen Liang, Hany Hassan Awadalla,
- Abstract要約: 完全エキスパートのコンパクト表現として機能する軽量モジュールである圧縮された専門家の概念を提案する。
我々のアプローチは、他の補助活性化専門家を圧縮専門家に置き換えながら、最も重要な専門家を保護します。
- 参考スコア(独自算出の注目度): 22.868004724309845
- License:
- Abstract: Mixture-of-Experts (MoE) models have become a key approach for scaling large language models efficiently by activating only a subset of experts during training and inference. Typically, the number of activated experts presents a trade-off: fewer experts reduce computational costs, while more experts improve performance. Recent studies reveal that not all activated experts contribute equally to model performance, with some providing minimal utility, particularly when finetuning pretrained MoE models for specialized downstream tasks. The co-existence of significant and redundant parameters in experts provides us an opportunity to reduce the number of activated experts while maintaining model performance. In this work, we propose the concept of compressed experts, lightweight modules that serve as compact representations of full experts. Our approach preserves the most important experts while replacing other auxiliary activated experts with compressed experts. The reduction of active parameters significantly lowers inference costs while achieving comparable performance. Extensive experiments on models including Phi-MoE and OLMoE demonstrate that compressed experts recover over 90% of full expert performance across various tasks while reducing more than 30% active parameters and saving 20% in inference costs. This approach enables efficient deployment of MoE models in resource-constrained settings and facilitates scaling to larger models with manageable overhead. Our code is available at https://github.com/yifei-he/Compressed-Experts.
- Abstract(参考訳): Mixture-of-Experts(MoE)モデルは、トレーニングと推論の間、専門家のサブセットのみを活性化することによって、大規模言語モデルを効率的にスケールするための重要なアプローチとなっている。
通常、活性化された専門家の数はトレードオフを示し、専門家が減って計算コストが削減される一方、より多くの専門家がパフォーマンスを向上させる。
最近の研究では、すべてのアクティベートされた専門家がモデル性能に等しく寄与するわけではなく、特に特定の下流タスクのために訓練済みのMoEモデルを微調整する場合に最小限のユーティリティを提供するものもある。
エキスパートにおける重要なパラメータと冗長なパラメータの共存は、モデルパフォーマンスを維持しながら、アクティベートされたエキスパートの数を減らす機会を与えてくれます。
本研究では, 圧縮された専門家の概念, 完全専門家のコンパクトな表現として機能する軽量モジュールを提案する。
我々のアプローチは、他の補助活性化専門家を圧縮専門家に置き換えながら、最も重要な専門家を保護します。
アクティブパラメータの削減は推論コストを大幅に削減し、同等のパフォーマンスを達成する。
Phi-MoE や OLMoE などのモデルに対する大規模な実験では、圧縮された専門家が様々なタスクにわたる完全な専門家のパフォーマンスの90%以上を回復し、30%以上のアクティブパラメータを削減し、推論コストを20%削減した。
このアプローチにより、リソース制約のある設定でのMoEモデルの効率的なデプロイが可能になり、管理可能なオーバーヘッドを伴う大規模モデルへのスケーリングが容易になる。
私たちのコードはhttps://github.com/yifei-he/Compressed-Experts.comで利用可能です。
関連論文リスト
- Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs [30.07344792770254]
我々は,SMoEモデルのエキスパートの育成を促進するため,EEP(Efficient Expert Pruning)と呼ばれる勾配のない進化戦略を導入する。
EEPは、ダウンストリームタスクのパフォーマンスを維持したり改善したりしながら、モデル推論(すなわち、勾配計算をしない)とより大きな疎性にのみ依存する。
実験の結果,Mixtral 8times7$B-Instructのエキスパートの75%が,性能損失を最小限に抑えたパラメータの大幅な削減を達成できた。
論文 参考訳(メタデータ) (2024-07-01T03:57:35Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Towards More Effective and Economic Sparsely-Activated Model [31.979312090196423]
同じデバイス上で複数の専門家を活性化する効率的な階層的ルーティング機構を提案する。
我々の手法は、非常に大きなスパースモデルのトレーニングに光を当て、実験により、我々のモデルが大幅な性能向上を達成できることを証明した。
論文 参考訳(メタデータ) (2021-10-14T14:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。