Fugu-MT 論文翻訳(概要): CompeteSMoE -- Effective Training of Sparse Mixture of Experts via Competition

論文の概要: CompeteSMoE -- Effective Training of Sparse Mixture of Experts via Competition

arxiv url: http://arxiv.org/abs/2402.02526v1
Date: Sun, 4 Feb 2024 15:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 19:14:16.582787
Title: CompeteSMoE -- Effective Training of Sparse Mixture of Experts via Competition
Title（参考訳）: CompeteSMoE -- 競争によるエキスパートのスパースミックスの効果的なトレーニング
Authors: Quang Pham, Giang Do, Huy Nguyen, TrungTin Nguyen, Chenghao Liu, Mina Sartipi, Binh T. Nguyen, Savitha Ramasamy, Xiaoli Li, Steven Hoi, Nhat Ho
Abstract要約: スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
参考スコア（独自算出の注目度）: 52.2034494666179
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse mixture of experts (SMoE) offers an appealing solution to scale up the model complexity beyond the mean of increasing the network's depth or width. However, effective training of SMoE has proven to be challenging due to the representation collapse issue, which causes parameter redundancy and limited representation potentials. In this work, we propose a competition mechanism to address this fundamental challenge of representation collapse. By routing inputs only to experts with the highest neural response, we show that, under mild assumptions, competition enjoys the same convergence rate as the optimal estimator. We further propose CompeteSMoE, an effective and efficient algorithm to train large language models by deploying a simple router that predicts the competition outcomes. Consequently, CompeteSMoE enjoys strong performance gains from the competition routing policy while having low computation overheads. Our extensive empirical evaluations on two transformer architectures and a wide range of tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE compared to state-of-the-art SMoE strategies.
Abstract（参考訳）: sparse mixed of experts (smoe)は、ネットワークの深さや幅を増加させる手段を超えて、モデルの複雑さをスケールアップするための魅力的なソリューションを提供する。しかし、SMoEの効果的なトレーニングは、パラメータ冗長性と限られた表現ポテンシャルを引き起こす表現崩壊問題のために困難であることが証明されている。本研究では,この表現崩壊の根本的な課題に対処する競合機構を提案する。入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。さらに,競争結果を予測するシンプルなルータを配置することにより,大規模言語モデルを効果的かつ効率的に学習するアルゴリズムCompeteSMoEを提案する。その結果、CompeteSMoEは演算オーバーヘッドを低くしながら競合ルーティングポリシから高いパフォーマンスを享受できる。 2つのトランスフォーマーアーキテクチャと幅広いタスクに関する広範な経験的評価から,コンピテンシーの有効性,堅牢性,スケーラビリティを,最先端のsmoe戦略と比較した。

関連論文リスト

Efficient Training of Large-Scale AI Models Through Federated Mixture-of-Experts: A System-Level Approach [52.79991638077892]
この記事では、動的クライアント-専門家のアライメントのための堅牢な定量的戦略が欠如しているという、批判的だが未調査のコンセプトを強調します。本稿では,動的適合度スコアリング,グローバルエキスパート負荷監視,クライアントのキャパシティ・プロファイリングを取り入れた,インテリジェントなクライアント-エキスパートアライメントのためのシステム設計を提案する。
論文参考訳（メタデータ） (2025-07-08T05:30:37Z)
CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition [33.34992335920672]
SMoEの効果的なトレーニングは、最適以下のルーティングプロセスのため、依然として困難である、と我々は主張する。本研究では,最も高い神経応答を持つ専門家にトークンをルーティングする新しいメカニズムであるコンペティションを提案する。競合ポリシーを学習するためにルータを配置することで,大規模言語モデルを訓練する,単純かつ効果的なアルゴリズムであるCompeteSMoEを開発した。
論文参考訳（メタデータ） (2025-05-19T17:24:26Z)
Sparse Mixture of Experts as Unified Competitive Learning [34.20340688374905]
SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。現在のSMoEは、Massive Text Embedding Benchmark (MTEB)のようなタスクと競合している。我々は,既存のSMoEの性能向上を目的とした,新しい,効率的なフレームワークであるUnified Competitive Learning SMoEを提案する。
論文参考訳（メタデータ） (2025-03-29T07:15:12Z)
Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.39800923804871]
我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文参考訳（メタデータ） (2025-03-20T11:45:08Z)
On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。 VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。 VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文参考訳（メタデータ） (2024-11-28T22:32:01Z)
Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文参考訳（メタデータ） (2024-10-17T18:40:48Z)
SimSMoE: Solving Representational Collapse via Similarity Measure [34.20340688374905]
SMOE(Sparse mixed of experts)は、計算コストを一定に保ちながら、大きな言語モデルをスケールするための効果的なアプローチとして登場した。本稿では、ニューラルネットワークアルゴリズムの新たな類似性であるSimSMoE(Simisity-based Sparse Mixture of Experts)を提案する。
論文参考訳（メタデータ） (2024-06-22T16:10:45Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2023-08-30T07:16:11Z)
Building Robust Ensembles via Margin Boosting [98.56381714748096]
敵のロバスト性においては、単一のモデルは通常、全ての敵の攻撃に対して十分な力を持っていない。我々は最大利得のアンサンブルを学習するアルゴリズムを開発した。提案アルゴリズムは,既存のアンサンブル技術に勝るだけでなく,エンド・ツー・エンドで訓練された大規模モデルにも勝ることを示す。
論文参考訳（メタデータ） (2022-06-07T14:55:58Z)
A portfolio-based analysis method for competition results [0.8680676599607126]
本稿では,コンペティションに参加する問題解決者のパフォーマンスを補完するポートフォリオベースの分析手法について述べる。本手法はMiniZinc Challengesの結果に示され,ポートフォリオの観点から得られた新たな知見が提示される。
論文参考訳（メタデータ） (2022-05-30T20:20:45Z)
Continual Competitive Memory: A Neural System for Online Task-Free Lifelong Learning [91.3755431537592]
我々は,教師なし学習,連続競合記憶(CCM)の新たな形態を提案する。結果として得られる神経系は、オンライン連続分類問題において破滅的な忘れと戦う効果的なアプローチを提供する。提案したCCMシステムは,他の競合学習ニューラルモデルよりも優れるだけでなく,最新かつ最先端の学習アプローチと競合する性能が得られることを実証する。
論文参考訳（メタデータ） (2021-06-24T20:12:17Z)
Towards robust and domain agnostic reinforcement learning competitions [12.731614722371376]
強化学習コンペティションは標準研究ベンチマークの基礎を形成している。それにもかかわらず、ほとんどの課題は、同じ根本的な問題に悩まされている。本稿では,これらの障壁を克服するアルゴリズムの開発を促進する,競争設計の新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-06-07T16:15:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。