論文の概要: CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition
- arxiv url: http://arxiv.org/abs/2402.02526v1
- Date: Sun, 4 Feb 2024 15:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:14:16.582787
- Title: CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition
- Title(参考訳): CompeteSMoE -- 競争によるエキスパートのスパースミックスの効果的なトレーニング
- Authors: Quang Pham, Giang Do, Huy Nguyen, TrungTin Nguyen, Chenghao Liu, Mina
Sartipi, Binh T. Nguyen, Savitha Ramasamy, Xiaoli Li, Steven Hoi, Nhat Ho
- Abstract要約: スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
- 参考スコア(独自算出の注目度): 52.2034494666179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse mixture of experts (SMoE) offers an appealing solution to scale up the
model complexity beyond the mean of increasing the network's depth or width.
However, effective training of SMoE has proven to be challenging due to the
representation collapse issue, which causes parameter redundancy and limited
representation potentials. In this work, we propose a competition mechanism to
address this fundamental challenge of representation collapse. By routing
inputs only to experts with the highest neural response, we show that, under
mild assumptions, competition enjoys the same convergence rate as the optimal
estimator. We further propose CompeteSMoE, an effective and efficient algorithm
to train large language models by deploying a simple router that predicts the
competition outcomes. Consequently, CompeteSMoE enjoys strong performance gains
from the competition routing policy while having low computation overheads. Our
extensive empirical evaluations on two transformer architectures and a wide
range of tasks demonstrate the efficacy, robustness, and scalability of
CompeteSMoE compared to state-of-the-art SMoE strategies.
- Abstract(参考訳): sparse mixed of experts (smoe)は、ネットワークの深さや幅を増加させる手段を超えて、モデルの複雑さをスケールアップするための魅力的なソリューションを提供する。
しかし、SMoEの効果的なトレーニングは、パラメータ冗長性と限られた表現ポテンシャルを引き起こす表現崩壊問題のために困難であることが証明されている。
本研究では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
さらに,競争結果を予測するシンプルなルータを配置することにより,大規模言語モデルを効果的かつ効率的に学習するアルゴリズムCompeteSMoEを提案する。
その結果、CompeteSMoEは演算オーバーヘッドを低くしながら競合ルーティングポリシから高いパフォーマンスを享受できる。
2つのトランスフォーマーアーキテクチャと幅広いタスクに関する広範な経験的評価から,コンピテンシーの有効性,堅牢性,スケーラビリティを,最先端のsmoe戦略と比較した。
関連論文リスト
- Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Building Robust Ensembles via Margin Boosting [98.56381714748096]
敵のロバスト性においては、単一のモデルは通常、全ての敵の攻撃に対して十分な力を持っていない。
我々は最大利得のアンサンブルを学習するアルゴリズムを開発した。
提案アルゴリズムは,既存のアンサンブル技術に勝るだけでなく,エンド・ツー・エンドで訓練された大規模モデルにも勝ることを示す。
論文 参考訳(メタデータ) (2022-06-07T14:55:58Z) - A portfolio-based analysis method for competition results [0.8680676599607126]
本稿では,コンペティションに参加する問題解決者のパフォーマンスを補完するポートフォリオベースの分析手法について述べる。
本手法はMiniZinc Challengesの結果に示され,ポートフォリオの観点から得られた新たな知見が提示される。
論文 参考訳(メタデータ) (2022-05-30T20:20:45Z) - Stochastic Local Winner-Takes-All Networks Enable Profound Adversarial
Robustness [9.017401570529135]
この研究は、競争に基づくアクティベーション、すなわちLocal Winner-Takes-All(LWTA)の有効性を探る。
従来のReversaベースの非線形性を、局所的に競合する線形単位からなるブロックに置き換える。
実験で示されたように、ネットワークは強力な敵攻撃に対して最先端の堅牢性をもたらす。
論文 参考訳(メタデータ) (2021-12-05T20:00:10Z) - Federated Distributionally Robust Optimization for Phase Configuration
of RISs [106.4688072667105]
我々は、教師付き学習環境において、多種多様なRISタイプ上での堅牢な再構成可能なインテリジェントサーフェス(RIS)支援ダウンリンク通信の問題について検討する。
異種RIS設計上のダウンリンク通信を分散的に位相構成を最適化する方法を学ぶ異なる労働者としてモデル化することにより、分散学習問題を解決することができる。
提案アルゴリズムは, 競合するベースラインと比較して, 最悪の分布精度を実現するために, 通信ラウンドを少なくする必要がある。
論文 参考訳(メタデータ) (2021-08-20T07:07:45Z) - Continual Competitive Memory: A Neural System for Online Task-Free
Lifelong Learning [91.3755431537592]
我々は,教師なし学習,連続競合記憶(CCM)の新たな形態を提案する。
結果として得られる神経系は、オンライン連続分類問題において破滅的な忘れと戦う効果的なアプローチを提供する。
提案したCCMシステムは,他の競合学習ニューラルモデルよりも優れるだけでなく,最新かつ最先端の学習アプローチと競合する性能が得られることを実証する。
論文 参考訳(メタデータ) (2021-06-24T20:12:17Z) - Towards robust and domain agnostic reinforcement learning competitions [12.731614722371376]
強化学習コンペティションは標準研究ベンチマークの基礎を形成している。
それにもかかわらず、ほとんどの課題は、同じ根本的な問題に悩まされている。
本稿では,これらの障壁を克服するアルゴリズムの開発を促進する,競争設計の新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。