論文の概要: Towards Principled Design of Mixture-of-Experts Language Models under Memory and Inference Constraints
- arxiv url: http://arxiv.org/abs/2601.08215v1
- Date: Tue, 13 Jan 2026 04:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.061986
- Title: Towards Principled Design of Mixture-of-Experts Language Models under Memory and Inference Constraints
- Title(参考訳): メモリと推論制約下での混在型言語モデルの原理設計に向けて
- Authors: Seng Pei Liew, Kenta Shinzato, Yuyang Dong,
- Abstract要約: 現代のMixture-of-Experts(MoE)言語モデルは、総パラメータ(メモリフットプリント)とアクティブパラメータ(推論コスト)に基づいて設計されている。
我々は、MoEのパフォーマンスが、主に全パラメータ(N_total$)とエキスパートスパシティ(s:=n_exp/n_topk$)によって決定されることを示す。
- 参考スコア(独自算出の注目度): 3.1275060062551208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Mixture-of-Experts (MoE) language models are designed based on total parameters (memory footprint) and active parameters (inference cost). However, we find these two factors alone are insufficient to describe an optimal architecture. Through a systematic study, we demonstrate that MoE performance is primarily determined by total parameters ($N_{total}$) and expert sparsity ($s:=n_{exp}/n_{topk}$). Moreover, $n_{exp}$ and $n_{topk}$ do not "cancel out" within the sparsity ratio; instead, a larger total number of experts slightly penalizes performance by forcing a reduction in core model dimensions (depth and width) to meet memory constraints. This motivates a simple principle for MoE design which maximizes $N_{total}$ while minimizing $s$ (maximizing $n_{topk}$) and $n_{exp}$ under the given constraints. Our findings provide a robust framework for resolving architectural ambiguity and guiding MoE design.
- Abstract(参考訳): 現代のMixture-of-Experts(MoE)言語モデルは、総パラメータ(メモリフットプリント)とアクティブパラメータ(推論コスト)に基づいて設計されている。
しかし、これらの2つの要因だけでは最適なアーキテクチャを記述するには不十分である。
系統的な研究を通して、MoE性能は、主に全パラメータ(N_{total}$)とエキスパートスパシティ(s:=n_{exp}/n_{topk}$)によって決定されることを示す。
さらに、$n_{exp}$ と $n_{topk}$ はスパーシティ比内では "cancel out" しない。代わりに、多くの専門家がメモリ制約を満たすためにコアモデル次元(深さと幅)の縮小を強制することにより、パフォーマンスをわずかにペナルティ化する。
これは、与えられた制約の下で$s$(最大$n_{topk}$)と$n_{exp}$を最小化しながら、$N_{total}$を最大化するMoE設計の単純な原則を動機付けている。
アーキテクチャの曖昧さを解消し,MoE設計を導くための堅牢なフレームワークを提供する。
関連論文リスト
- Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Lighter-X: An Efficient and Plug-and-play Strategy for Graph-based Recommendation through Decoupled Propagation [49.865020394064096]
我々は,既存のGNNベースのレコメンデータアーキテクチャとシームレスに統合可能な,効率的かつモジュール化されたフレームワークである textbfLighter-X を提案する。
提案手法は,基本モデルの理論的保証と経験的性能を保ちながら,パラメータサイズと計算複雑性を大幅に低減する。
実験の結果、Lighter-Xはパラメータが大幅に少ないベースラインモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-11T08:33:08Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Pruning General Large Language Models into Customized Expert Models [78.96891010334852]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その相当なモデルサイズは、しばしばかなりの計算資源を必要とする。
そこで本研究では,より小型のエキスパートモデルに大容量の一般モデルを組み込む手法を提案する。
各次元の無関係ニューロンを識別し、プルーニングすることにより、$textttCus-Prun$は、ポストトレーニングなしで専門家モデルを作成する。
論文 参考訳(メタデータ) (2025-06-03T07:47:30Z) - IGNIS: A Robust Neural Network Framework for Constrained Parameter Estimation in Archimedean Copulas [0.0]
textbfIGNISは、データ駆動依存度からパラメータtheta$への直接的なロバストなマッピングを学習することで障壁をサイドステップする統合ニューラルネットワーク推定フレームワークである。
4つのファミリー(Gumbel、Joe、そして数値的に難しいA1/A2)でトレーニングされ、検証されたIGNISは、現実世界の財務および健康のデータセットに対して正確で安定した見積もりを提供する。
論文 参考訳(メタデータ) (2025-05-28T16:04:17Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。