Fugu-MT 論文翻訳(概要): Sparse Mixture of Experts as Unified Competitive Learning

論文の概要: Sparse Mixture of Experts as Unified Competitive Learning

arxiv url: http://arxiv.org/abs/2503.22996v1
Date: Sat, 29 Mar 2025 07:15:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.877593
Title: Sparse Mixture of Experts as Unified Competitive Learning
Title（参考訳）: 統一競争学習としてのエキスパートのスパースミックス
Authors: Giang Do, Hung Le, Truyen Tran,
Abstract要約: SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。現在のSMoEは、Massive Text Embedding Benchmark (MTEB)のようなタスクと競合している。我々は,既存のSMoEの性能向上を目的とした,新しい,効率的なフレームワークであるUnified Competitive Learning SMoEを提案する。
参考スコア（独自算出の注目度）: 34.20340688374905
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Sparse Mixture of Experts (SMoE) improves the efficiency of large language model training by directing input tokens to a subset of experts. Despite its success in generation tasks, its generalization ability remains an open question. In this paper, we demonstrate that current SMoEs, which fall into two categories: (1) Token Choice ;and (2) Expert Choice, struggle with tasks such as the Massive Text Embedding Benchmark (MTEB). By analyzing their mechanism through the lens of competitive learning, our study finds that the Token Choice approach may overly focus on irrelevant experts, while the Expert Choice approach risks discarding important tokens, potentially affecting performance. Motivated by this analysis, we propose Unified Competitive Learning SMoE (USMoE), a novel and efficient framework designed to improve the performance of existing SMoEs in both scenarios: with and without training. Extensive experiments across various tasks show that USMoE achieves up to a 10% improvement over traditional approaches or reduces computational inference costs by 14% while maintaining strong performance.
Abstract（参考訳）: SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。生成タスクの成功にもかかわらず、その一般化能力は未解決の問題である。本稿では,(1)token Choice ; and (2) Expert Choice, struggle with task such as the Massive Text Embedding Benchmark (MTEB)。そのメカニズムを競合学習のレンズで分析することで、Token Choiceのアプローチは無関係な専門家に過度に焦点を絞っているのに対し、Expert Choiceのアプローチは重要なトークンを捨て、パフォーマンスに影響を及ぼすリスクがあることがわかった。この分析により,既存のSMoEの性能向上を目的とした新しい,かつ効率的なフレームワークであるUnified Competitive Learning SMoE(USMoE)を提案する。様々なタスクにわたる大規模な実験により、USMoEは従来のアプローチよりも最大10%改善されたか、強い性能を維持しながら、計算推論コストを14%削減した。

関連論文リスト

Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文参考訳（メタデータ） (2025-04-16T04:06:15Z)
Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文参考訳（メタデータ） (2025-04-08T00:49:08Z)
S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning [34.20340688374905]
SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。近年の研究では、この問題を軽減するためにルータの改善に重点を置いているが、既存のアプローチには2つの重要な制限がある。本稿では,ロバスト学習(S2MoE)によるエキスパートのスパース混合(Sparse Mixture of Experts)という,決定論的および非決定論的入力から学習するために設計されたエキスパートの混合手法を提案する。
論文参考訳（メタデータ） (2025-03-29T08:14:27Z)
On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。 VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。 VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文参考訳（メタデータ） (2024-11-28T22:32:01Z)
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文参考訳（メタデータ） (2024-06-03T03:58:41Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
CompeteSMoE -- Effective Training of Sparse Mixture of Experts via Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文参考訳（メタデータ） (2024-02-04T15:17:09Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。