論文の概要: CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition
- arxiv url: http://arxiv.org/abs/2505.13380v1
- Date: Mon, 19 May 2025 17:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.766861
- Title: CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition
- Title(参考訳): CompeteSMoE -- 競争による専門家訓練の統計的に保証された混合
- Authors: Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho,
- Abstract要約: SMoEの効果的なトレーニングは、最適以下のルーティングプロセスのため、依然として困難である、と我々は主張する。
本研究では,最も高い神経応答を持つ専門家にトークンをルーティングする新しいメカニズムであるコンペティションを提案する。
競合ポリシーを学習するためにルータを配置することで,大規模言語モデルを訓練する,単純かつ効果的なアルゴリズムであるCompeteSMoEを開発した。
- 参考スコア(独自算出の注目度): 33.34992335920672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse mixture of experts (SMoE) offers an appealing solution to scale up the model complexity beyond the mean of increasing the network's depth or width. However, we argue that effective SMoE training remains challenging because of the suboptimal routing process where experts that perform computation do not directly contribute to the routing process. In this work, we propose competition, a novel mechanism to route tokens to experts with the highest neural response. Theoretically, we show that the competition mechanism enjoys a better sample efficiency than the traditional softmax routing. Furthermore, we develop CompeteSMoE, a simple yet effective algorithm to train large language models by deploying a router to learn the competition policy, thus enjoying strong performances at a low training overhead. Our extensive empirical evaluations on both the visual instruction tuning and language pre-training tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE compared to state-of-the-art SMoE strategies. We have made the implementation available at: https://github.com/Fsoft-AIC/CompeteSMoE. This work is an improved version of the previous study at arXiv:2402.02526
- Abstract(参考訳): スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
しかし、計算を行う専門家が直接ルーティングプロセスに寄与しないような最適以下のルーティングプロセスのため、効果的なSMoEトレーニングは依然として困難である。
本研究では,最も高い神経応答を持つ専門家にトークンをルーティングする新しいメカニズムであるコンペティションを提案する。
理論的には、競合機構は従来のソフトマックスルーティングよりも優れたサンプリング効率を享受できることが示される。
さらに,競合ポリシーを学習するためにルータを配置することで,大規模な言語モデルを訓練する,単純かつ効果的なアルゴリズムCompeteSMoEを開発した。
ビジュアル・インストラクション・チューニングと言語事前学習の両タスクに関する広範な実証実験により,CompeteSMoEの有効性,ロバスト性,拡張性について,最先端のSMoE戦略と比較した。
実装は、https://github.com/Fsoft-AIC/CompeteSMoE.comで公開しました。
この研究は、arXiv:2402.02526における以前の研究の改良版である。
関連論文リスト
- Sparse Mixture of Experts as Unified Competitive Learning [34.20340688374905]
SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。
現在のSMoEは、Massive Text Embedding Benchmark (MTEB)のようなタスクと競合している。
我々は,既存のSMoEの性能向上を目的とした,新しい,効率的なフレームワークであるUnified Competitive Learning SMoEを提案する。
論文 参考訳(メタデータ) (2025-03-29T07:15:12Z) - On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Checkmating One, by Using Many: Combining Mixture of Experts with MCTS
to Improve in Chess [20.043363738256176]
本稿では,Mixture of Experts (MoE) 法とMonte-Carlo Tree Search (MCTS) を用いて,ディープラーニングと計算チェスを統合した新しい手法を提案する。
我々のフレームワークは,MoE法とMCTS法を組み合わせることで,チェスの戦略段階と整合し,従来のワン・フォー・オールモデルから逸脱する。
私たちの経験的研究は、従来のシングルモデルフレームワークを抜いて、演奏力を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2024-01-30T09:55:14Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Continual Competitive Memory: A Neural System for Online Task-Free
Lifelong Learning [91.3755431537592]
我々は,教師なし学習,連続競合記憶(CCM)の新たな形態を提案する。
結果として得られる神経系は、オンライン連続分類問題において破滅的な忘れと戦う効果的なアプローチを提供する。
提案したCCMシステムは,他の競合学習ニューラルモデルよりも優れるだけでなく,最新かつ最先端の学習アプローチと競合する性能が得られることを実証する。
論文 参考訳(メタデータ) (2021-06-24T20:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。