論文の概要: Mixture of Heterogeneous Grouped Experts for Language Modeling
- arxiv url: http://arxiv.org/abs/2604.23108v2
- Date: Tue, 28 Apr 2026 02:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.826641
- Title: Mixture of Heterogeneous Grouped Experts for Language Modeling
- Title(参考訳): 言語モデリングのための異種グループエキスパートの混合
- Authors: Zhicheng Ma, Xiang Liu, Zhaoxiang Liu, Ning Wang, Yi Shen, Kai Wang, Shuming Shi, Shiguo Lian,
- Abstract要約: Mixture-of-Experts (MoE) に基づくLarge Language Models (LLM) は、産業アプリケーションにおいて、性能を効率的に拡張する能力において重要な要素である。
標準的なMoEは、均一な専門家サイズを強制し、様々なトークンレベルの複雑さと計算コストの整合に失敗する剛性を生成する。
そこで本稿では, 資源に配慮したフレキシブルな組み合わせを実現するための2段階のルーティング機構を導入する, 異種グループエキスパートの混合(MoHGE)を提案する。
- 参考スコア(独自算出の注目度): 19.29654468661715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) based on Mixture-of-Experts (MoE) are pivotal in industrial applications for their ability to scale performance efficiently. However, standard MoEs enforce uniform expert sizes,creating a rigidity that fails to align computational costs with varying token-level complexity. While heterogeneous expert architectures attempt to address this by diversifying expert sizes, they often suffer from significant system-level challenges, specifically unbalanced GPU utilization and inefficient parameter utilization, which hinder practical deployment. To bridge the gap between theoretical heterogeneity and robust industrial application, we propose Mixture of Heterogeneous Grouped Experts (MoHGE) which introduces a two-level routing mechanism to enable flexible, resource-aware expert combinations. To optimize inference efficiency, we propose a Group-Wise Auxiliary Loss, which dynamically steers tokens to the most parameter-efficient expert groups based on task difficulty. To address the critical deployment challenge of GPU load balancing, we introduce an All-size Group-decoupling Allocation strategy coupled with an Intra-Group Experts Auxiliary Loss. These mechanisms collectively ensure uniform computation distribution across GPUs. Extensive evaluations demonstrate that MoHGE matches the performance of MoE architectures while reducing the total parameters by approximately 20% and maintaining balanced GPU utilization. Our work establishes a scalable paradigm for resource-efficient MoE design, offering a practical solution for optimizing inference costs in real-world scenarios. The code is publicly available at https://github.com/UnicomAI/MoHGE.
- Abstract(参考訳): Mixture-of-Experts (MoE) に基づくLarge Language Models (LLM) は、産業アプリケーションにおいて、性能を効率的に拡張する能力において重要な要素である。
しかし、標準的なMoEは均一な専門家サイズを強制し、計算コストを異なるトークンレベルの複雑さに合わせるのに失敗する剛性を生み出す。
ヘテロジニアスなエキスパートアーキテクチャは、専門家のサイズを多様化することによってこの問題に対処しようとするが、それらはしばしば重要なシステムレベルの課題、特にGPU利用の不均衡と非効率なパラメータ利用に悩まされ、実用的なデプロイメントを妨げている。
理論的不均一性とロバストな産業応用のギャップを埋めるため, フレキシブル・リソース・アウェア・エキスパートの組み合わせを実現するための2段階のルーティング機構を導入したMixture of Heterogeneous Grouped Experts (MoHGE)を提案する。
推論効率を最適化するために,タスク難易度に基づくパラメータ効率の高いエキスパートグループに対して,トークンを動的に操るグループワイズ補助損失を提案する。
GPUロードバランシングの致命的な展開課題に対処するため,全サイズグループ分離アロケーション戦略と,グループ内エキスパートの補助的損失の併用を導入する。
これらのメカニズムは、GPU全体の均一な計算分布を保証する。
大規模な評価では、MoHGEはMoEアーキテクチャのパフォーマンスと一致し、合計パラメータを約20%削減し、バランスの取れたGPU使用率を維持している。
我々の研究は、リソース効率のよいMoE設計のためのスケーラブルなパラダイムを確立し、現実のシナリオにおける推論コストを最適化するための実用的なソリューションを提供します。
コードはhttps://github.com/UnicomAI/MoHGEで公開されている。
関連論文リスト
- Token-Level LLM Collaboration via FusionRoute [60.72307345997823]
FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
論文 参考訳(メタデータ) (2026-01-08T16:53:16Z) - HFedMoE: Resource-aware Heterogeneous Federated Learning with Mixture-of-Experts [26.55877320740609]
我々は,HFedMoEを提案する。HFedMoEは不均一なMoEベースのFLファインチューニングフレームワークで,各クライアントに専門家のサブセットをカスタマイズする。
HFedMoEは、微調整パフォーマンスへの貢献に基づいて、専門家の重要性を特定している。
そして、情報ボトルネックの観点から専門家のサブセットを適応的に選択し、各クライアントのコンピューティング予算に適合させる。
論文 参考訳(メタデータ) (2026-01-02T05:56:11Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。
実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T09:54:19Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [24.28646376876676]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。