論文の概要: Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression
- arxiv url: http://arxiv.org/abs/2510.02345v1
- Date: Sat, 27 Sep 2025 10:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.022562
- Title: Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression
- Title(参考訳): MoE LLM Trilemma: 構造化圧縮による動的エキスパートクラスタリング
- Authors: Peijun Zhu, Ning Yang, Jiayu Wei, Jinghang Wu, Haijun Zhang,
- Abstract要約: Mixture-of-Experts (MoE) Large Language Models (LLM) は負荷不均衡、パラメータの冗長性、通信オーバーヘッドのトリレンマに直面している。
動的専門家クラスタリングと構造化圧縮に基づいて統合されたフレームワークを導入し,これらの問題に協調的に対処する。
- 参考スコア(独自算出の注目度): 14.086434595924716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) Large Language Models (LLMs) face a trilemma of load imbalance, parameter redundancy, and communication overhead. We introduce a unified framework based on dynamic expert clustering and structured compression to address these issues cohesively. Our method employs an online clustering procedure that periodically regroups experts using a fused metric of parameter and activation similarity, which stabilizes expert utilization. To our knowledge, this is one of the first frameworks to leverage the semantic embedding capability of the router to dynamically reconfigure the model's architecture during training for substantial efficiency gains. Within each cluster, we decompose expert weights into a shared base matrix and extremely low-rank residual adapters, achieving up to fivefold parameter reduction per group while preserving specialization. This structure enables a two-stage hierarchical routing strategy: tokens are first assigned to a cluster, then to specific experts within it, drastically reducing the routing search space and the volume of all-to-all communication. Furthermore, a heterogeneous precision scheme, which stores shared bases in FP16 and residual factors in INT4, coupled with dynamic offloading of inactive clusters, reduces peak memory consumption to levels comparable to dense models. Evaluated on GLUE and WikiText-103, our framework matches the quality of standard MoE models while reducing total parameters by approximately 80%, improving throughput by 10% to 20%, and lowering expert load variance by a factor of over three. Our work demonstrates that structural reorganization is a principled path toward scalable, efficient, and memory-effective MoE LLMs.
- Abstract(参考訳): Mixture-of-Experts (MoE) Large Language Models (LLM) は負荷不均衡、パラメータの冗長性、通信オーバーヘッドのトリレンマに直面している。
動的専門家クラスタリングと構造化圧縮に基づいて統合されたフレームワークを導入し,これらの問題に協調的に対処する。
本手法では,パラメータとアクティベーションの類似性の融合度を用いて,専門家を定期的に再編成するオンラインクラスタリング手法を用いて,専門家の利用を安定化させる。
私たちの知る限り、このフレームワークはルータのセマンティック埋め込み機能を活用して、トレーニング中にモデルのアーキテクチャを動的に再構成し、実質的な効率向上を実現した最初のフレームワークの1つです。
各クラスタ内では、専門家の重みを共有基行列と極低ランク残基に分解し、特殊化を保ちながらグループ毎に最大5倍のパラメータ還元を達成する。
この構造は、2段階の階層的ルーティング戦略を可能にする。トークンはまずクラスタに割り当てられ、次にその中の特定の専門家に割り当てられる。
さらに、FP16の共有ベースとINT4の残留因子を格納し、不活性クラスタの動的オフロードと組み合わせた不均一な精度のスキームにより、ピークメモリ消費量を高密度モデルに匹敵するレベルまで削減する。
GLUEとWikiText-103に基づいて評価し、我々のフレームワークは標準のMoEモデルの品質と一致し、総パラメータを約80%削減し、スループットを10%から20%改善し、専門家の負荷分散を3倍に減らした。
我々の研究は、構造再構成が、スケーラブルで効率的でメモリ効率の良いMoE LLMへの原則的な道であることを実証している。
関連論文リスト
- SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling [16.742839354514512]
我々は,大規模言語モデルを最適化する動的層プルーニングフレームワークであるSkipGPTを紹介する。
また,SkipGPTはモデルパラメータの40%以上を削減できることを示す。
論文 参考訳(メタデータ) (2025-06-04T17:26:31Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [16.062265609569003]
Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場した。
本稿では,(1)軽量計算を用いた効率的なルーティング機構,(2)エキスパートとトークンの共振を利用した適応的双方向選択機構,(3)動的トークン分布解析に基づくエキスパートキャパシティの下位境界を決定するモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - DIVA: A Dirichlet Process Mixtures Based Incremental Deep Clustering
Algorithm via Variational Auto-Encoder [26.93881074862267]
本稿では,ガウスの無限混合を先行として利用する非パラメトリックディープクラスタリングフレームワークを提案する。
このフレームワークをDirichlet ProcessベースのインクリメンタルディープクラスタリングフレームワークであるDIVAと名付けます。
我々のフレームワークは最先端のベースラインより優れており、動的に変化する特徴を持つ複雑なデータの分類において優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T13:44:12Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。