論文の概要: Sparse Mixture of Experts as Unified Competitive Learning
- arxiv url: http://arxiv.org/abs/2503.22996v1
- Date: Sat, 29 Mar 2025 07:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:58.149978
- Title: Sparse Mixture of Experts as Unified Competitive Learning
- Title(参考訳): 統一競争学習としてのエキスパートのスパースミックス
- Authors: Giang Do, Hung Le, Truyen Tran,
- Abstract要約: SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。
現在のSMoEは、Massive Text Embedding Benchmark (MTEB)のようなタスクと競合している。
我々は,既存のSMoEの性能向上を目的とした,新しい,効率的なフレームワークであるUnified Competitive Learning SMoEを提案する。
- 参考スコア(独自算出の注目度): 34.20340688374905
- License:
- Abstract: Sparse Mixture of Experts (SMoE) improves the efficiency of large language model training by directing input tokens to a subset of experts. Despite its success in generation tasks, its generalization ability remains an open question. In this paper, we demonstrate that current SMoEs, which fall into two categories: (1) Token Choice ;and (2) Expert Choice, struggle with tasks such as the Massive Text Embedding Benchmark (MTEB). By analyzing their mechanism through the lens of competitive learning, our study finds that the Token Choice approach may overly focus on irrelevant experts, while the Expert Choice approach risks discarding important tokens, potentially affecting performance. Motivated by this analysis, we propose Unified Competitive Learning SMoE (USMoE), a novel and efficient framework designed to improve the performance of existing SMoEs in both scenarios: with and without training. Extensive experiments across various tasks show that USMoE achieves up to a 10% improvement over traditional approaches or reduces computational inference costs by 14% while maintaining strong performance.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。
生成タスクの成功にもかかわらず、その一般化能力は未解決の問題である。
本稿では,(1)token Choice ; and (2) Expert Choice, struggle with task such as the Massive Text Embedding Benchmark (MTEB)。
そのメカニズムを競合学習のレンズで分析することで、Token Choiceのアプローチは無関係な専門家に過度に焦点を絞っているのに対し、Expert Choiceのアプローチは重要なトークンを捨て、パフォーマンスに影響を及ぼすリスクがあることがわかった。
この分析により,既存のSMoEの性能向上を目的とした新しい,かつ効率的なフレームワークであるUnified Competitive Learning SMoE(USMoE)を提案する。
様々なタスクにわたる大規模な実験により、USMoEは従来のアプローチよりも最大10%改善されたか、強い性能を維持しながら、計算推論コストを14%削減した。
関連論文リスト
- On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。
これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文 参考訳(メタデータ) (2024-06-03T03:58:41Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。