論文の概要: Scaling Machine Learning Interatomic Potentials with Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2603.07977v2
- Date: Thu, 12 Mar 2026 13:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.433661
- Title: Scaling Machine Learning Interatomic Potentials with Mixtures of Experts
- Title(参考訳): エキスパートの混在による機械学習の原子間ポテンシャルのスケーリング
- Authors: Yuzhi Liu, Duo Zhang, Anyang Peng, Weinan E, Linfeng Zhang, Han Wang,
- Abstract要約: スパースアクティベーションと共有専門家が組み合わさって、パフォーマンスが大幅に向上することを示す。
また, 共有専門家が存在する場合, 非線形MoE定式化はMoLEよりも優れていた。
結果の要素ワイドMOEモデルはOMol25、OMat24、OC20Mベンチマークで最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 17.26990494018057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning Interatomic Potentials (MLIPs) enable accurate large-scale atomistic simulations, yet improving their expressive capacity efficiently remains challenging. Here we systematically develop Mixture-of-Experts (MoE) and Mixture-of-Linear-Experts (MoLE) architectures for MLIPs and analyze the effects of routing strategies and expert designs. We show that sparse activation combined with shared experts yields substantial performance gains, and that nonlinear MoE formulations outperform MoLE when shared experts are present, underscoring the importance of nonlinear expert specialization. Furthermore, element-wise routing consistently surpasses configuration-level routing, while global MoE routing often leads to numerical instability. The resulting element-wise MoE model achieves state-of-the-art accuracy across the OMol25, OMat24, and OC20M benchmarks. Analysis of routing patterns reveals chemically interpretable expert specialization aligned with periodic-table trends, indicating that the model effectively captures element-specific chemical characteristics for precise interatomic modeling.
- Abstract(参考訳): 機械学習原子間ポテンシャル(MLIP)は、正確な大規模原子論シミュレーションを可能にするが、効率よく表現能力を改善することは困難である。
そこで我々はMLIPのためのMixture-of-Experts (MoE)とMixture-of-Linear-Experts (MoLE)アーキテクチャを体系的に開発し、ルーティング戦略とエキスパート設計の影響を分析する。
共有専門家と共有専門家を併用したスパースアクティベーションにより性能が大幅に向上し, 共有専門家が存在する場合の非線形MoE定式化はMoLEよりも優れ, 非線形専門家の専門化の重要性が強調される。
さらに、要素単位のルーティングは構成レベルのルーティングを一貫して上回り、グローバルなMoEルーティングは数値的な不安定性をもたらすことが多い。
結果の要素ワイドMOEモデルはOMol25、OMat24、OC20Mベンチマークで最先端の精度を達成する。
ルーティングパターンの解析により,周期的な傾向に沿った化学的に解釈可能な専門家の専門化が明らかとなり,モデルが正確な原子間モデリングのために,元素特異的な化学的特性を効果的に捉えることが示唆された。
関連論文リスト
- Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts [19.707274733121412]
Sparse Mixture of Experts (sMoE)は、大規模な視覚言語モデルをスケールするための重要なアプローチとなっている。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
論文 参考訳(メタデータ) (2025-10-18T11:01:03Z) - Guided by the Experts: Provable Feature Learning Dynamic of Soft-Routed Mixture-of-Experts [11.437368205968573]
本稿では,非線形ルータと専門家によるソフトローイング型MoEモデルの連成訓練のための収束保証を提供することにより,MoE理論を推し進める。
訓練後プルーニングは、効果的に冗長ニューロンを除去し、続いて、大域的最適性に到達した、確実に収束した微調整プロセスを示す。
論文 参考訳(メタデータ) (2025-10-08T16:40:31Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - MoxE: Mixture of xLSTM Experts with Entropy-Aware Routing for Efficient Language Modeling [6.553328746906528]
MoxEはExtended Long Short-Term Memory (xLSTM)とMixture of Experts (MoE)フレームワークを組み合わせた新しいアーキテクチャである。
我々のアプローチの核心は、トークンを専門の専門家に動的にルーティングするために設計された、エントロピーベースのルーティングメカニズムである。
MoxEは、既存のアプローチと比較して、大幅な効率向上と有効性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-01T12:06:39Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。