論文の概要: $\infty$-MoE: Generalizing Mixture of Experts to Infinite Experts
- arxiv url: http://arxiv.org/abs/2601.17680v1
- Date: Sun, 25 Jan 2026 03:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.206748
- Title: $\infty$-MoE: Generalizing Mixture of Experts to Infinite Experts
- Title(参考訳): $\infty$-MoE: エキスパートの混合を無限の専門家に一般化する
- Authors: Shota Takashiro, Takeshi Kojima, Shohei Taniguchi, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: Mixture of Experts (MoE)はトークンごとにいくつかのフィードフォワードネットワーク(FFN)を選択し、計算コストとパフォーマンスの効果的なトレードオフを実現する。
トークン毎にサンプリングされた連続値に基づいて,大きなFFNのパラメータの一部を選択可能な$infty$-MoEを提案する。
GPT-2 Small-based $infty$-MoE model, with 19M active and 186M total parameters, is a comparable performance to a dense GPT-2 Medium with 350M parameters。
- 参考スコア(独自算出の注目度): 43.075289015406355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts (MoE) selects a few feed-forward networks (FFNs) per token, achieving an effective trade-off between computational cost and performance. In conventional MoE, each expert is treated as entirely independent, and experts are combined in a discrete space. As a result, when the number of experts increases, it becomes difficult to train each expert effectively. To stabilize training while increasing the number of experts, we propose $\infty$-MoE that selects a portion of the parameters of large FFNs based on continuous values sampled for each token. By considering experts in a continuous space, this approach allows for an infinite number of experts while maintaining computational efficiency. Experiments show that a GPT-2 Small-based $\infty$-MoE model, with 129M active and 186M total parameters, achieves comparable performance to a dense GPT-2 Medium with 350M parameters. Adjusting the number of sampled experts at inference time allows for a flexible trade-off between accuracy and speed, with an improvement of up to 2.5\% in accuracy over conventional MoE.
- Abstract(参考訳): Mixture of Experts (MoE)はトークンごとにいくつかのフィードフォワードネットワーク(FFN)を選択し、計算コストとパフォーマンスの効果的なトレードオフを実現する。
従来のMoEでは、各専門家は完全に独立したものとして扱われ、専門家は個別の空間で結合される。
その結果、専門家の数が増えると、各専門家を効果的に訓練することは困難になる。
専門家数を増やしながらトレーニングを安定させるために,トークン毎にサンプリングされた連続値に基づいて,大規模なFFNのパラメータの一部を選択できる$\infty$-MoEを提案する。
連続空間のエキスパートを考えることで、このアプローチは計算効率を保ちながら、無限の数のエキスパートを可能にする。
GPT-2 Small-based $\infty$-MoE model, with 129M active and 186M total parameters, is a comparable performance to a dense GPT-2 Medium with 350M parameters。
推論時にサンプリングされた専門家の数を調整することで、精度と速度の間の柔軟なトレードオフが可能になり、従来のMoEよりも最大2.5倍の精度で改善される。
関連論文リスト
- Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts [43.63398524449102]
Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入しました。
論文 参考訳(メタデータ) (2025-09-26T05:29:19Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - Unified Sparse Mixture of Experts [14.774596844618396]
SMOE(Sparse Mixture of Experts)モデルは、一定の計算オーバーヘッドを維持しながら、モデルのキャパシティをスケールする。
本稿では,これらの制約に対処する統一スパース・ミックス・オブ・エキスパート(USMoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T07:15:12Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。