論文の概要: LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts
- arxiv url: http://arxiv.org/abs/2601.18089v1
- Date: Mon, 26 Jan 2026 02:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.629522
- Title: LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts
- Title(参考訳): LatentMoE: FLOP当たりの最適精度とエキスパートの混合パラメータを目指して
- Authors: Venmugil Elango, Nidhi Bhatia, Roger Waleffe, Rasoul Shafipour, Tomer Asida, Abhinav Khattar, Nave Assaf, Maximilian Golub, Joey Guman, Tiyasa Mitra, Ritchie Zhao, Ritika Borkar, Ran Zilberstein, Mostofa Patwary, Mohammad Shoeybi, Bita Rouhani,
- Abstract要約: Mixture of Experts (MoEs)は多くの最先端のオープンソースおよびプロプライエタリな大規模言語モデルの中心的なコンポーネントとなっている。
計算単位あたりの最大精度に最適化された,体系的な設計探索から得られた新しいモデルアーキテクチャであるLatentMoEを紹介する。
- 参考スコア(独自算出の注目度): 15.367914808182405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoEs) have become a central component of many state-of-the-art open-source and proprietary large language models. Despite their widespread adoption, it remains unclear how close existing MoE architectures are to optimal with respect to inference cost, as measured by accuracy per floating-point operation and per parameter. In this work, we revisit MoE design from a hardware-software co-design perspective, grounded in empirical and theoretical considerations. We characterize key performance bottlenecks across diverse deployment regimes, spanning offline high-throughput execution and online, latency-critical inference. Guided by these insights, we introduce LatentMoE, a new model architecture resulting from systematic design exploration and optimized for maximal accuracy per unit of compute. Empirical design space exploration at scales of up to 95B parameters and over a 1T-token training horizon, together with supporting theoretical analysis, shows that LatentMoE consistently outperforms standard MoE architectures in terms of accuracy per FLOP and per parameter. Given its strong performance, the LatentMoE architecture has been adopted by the flagship Nemotron-3 Super and Ultra models and scaled to substantially larger regimes, including longer token horizons and larger model sizes, as reported in Nvidia et al. (arXiv:2512.20856).
- Abstract(参考訳): Mixture of Experts (MoEs)は多くの最先端のオープンソースおよびプロプライエタリな大規模言語モデルの中心的なコンポーネントとなっている。
広く採用されているにもかかわらず、浮動小数点演算毎の精度とパラメータごとの精度で測定されるように、既存のMoEアーキテクチャが推論コストに対してどの程度近いかは定かではない。
本研究では,実証的および理論的考察に基づき,ハードウェア・ソフトウェア共同設計の観点からMoE設計を再考する。
オフラインの高スループット実行とオンラインのレイテンシクリティカルな推論にまたがる、さまざまなデプロイメント体制における重要なパフォーマンスボトルネックを特徴付けます。
これらの知見から導かれた新しいモデルアーキテクチャであるLatentMoEを導入し,計算単位あたりの最大精度に最適化した。
最大95Bパラメータのスケールでの実証的な設計空間探索と1T-tokenのトレーニング地平線による理論解析の支持により、LatntMoEはFLOPとパラメータ毎の精度で標準MoEアーキテクチャを一貫して上回ることを示した。
強力な性能のため、LatntMoEアーキテクチャはフラッグシップのNemotron-3 SuperとUltraモデルに採用され、Nvidia等(arXiv:2512.20856)で報告されているように、より長いトークン水平線やより大きなモデルサイズを含む、かなり大きなレジームに拡張されている。
関連論文リスト
- Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe [51.26601054313749]
Diffusion MoEモデルに対する最近の取り組みは、主により洗練されたルーティングメカニズムの開発に焦点を当てている。
大規模言語モデル(LLM)で確立されたMoE設計パラダイムに着想を得て,効率的な拡散MoEモデルを構築する上で重要なアーキテクチャ要素のセットを特定する。
本稿では,潜在空間拡散フレームワークと画素空間拡散フレームワークの両方に効率よく適用可能な新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-01T03:52:31Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Scaling Fine-Grained MoE Beyond 50B Parameters: Empirical Evaluation and Practical Insights [3.8192930334982074]
きめ細かいMoEアプローチは、モデル収束と品質を改善する可能性を示している。
この研究は、将来の大規模モデルの開発において、微細なMoEを利用するための経験的基礎と実践的な洞察を提供する。
論文 参考訳(メタデータ) (2025-06-03T13:55:48Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient [4.34286535607654]
我々は,高密度モデルとMoEモデルに対する共同スケーリング法則を提案し,アクティブパラメータ数,データセットサイズ,エキスパート数といった重要な要素を取り入れた。
驚くべきことに、従来の知恵とは対照的に、MoEモデルは高密度モデルよりもメモリ効率が高いことが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:38Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。