論文の概要: CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition
- arxiv url: http://arxiv.org/abs/2402.02526v1
- Date: Sun, 4 Feb 2024 15:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:14:16.582787
- Title: CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition
- Title(参考訳): CompeteSMoE -- 競争によるエキスパートのスパースミックスの効果的なトレーニング
- Authors: Quang Pham, Giang Do, Huy Nguyen, TrungTin Nguyen, Chenghao Liu, Mina
Sartipi, Binh T. Nguyen, Savitha Ramasamy, Xiaoli Li, Steven Hoi, Nhat Ho
- Abstract要約: スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
- 参考スコア(独自算出の注目度): 52.2034494666179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse mixture of experts (SMoE) offers an appealing solution to scale up the
model complexity beyond the mean of increasing the network's depth or width.
However, effective training of SMoE has proven to be challenging due to the
representation collapse issue, which causes parameter redundancy and limited
representation potentials. In this work, we propose a competition mechanism to
address this fundamental challenge of representation collapse. By routing
inputs only to experts with the highest neural response, we show that, under
mild assumptions, competition enjoys the same convergence rate as the optimal
estimator. We further propose CompeteSMoE, an effective and efficient algorithm
to train large language models by deploying a simple router that predicts the
competition outcomes. Consequently, CompeteSMoE enjoys strong performance gains
from the competition routing policy while having low computation overheads. Our
extensive empirical evaluations on two transformer architectures and a wide
range of tasks demonstrate the efficacy, robustness, and scalability of
CompeteSMoE compared to state-of-the-art SMoE strategies.
- Abstract(参考訳): sparse mixed of experts (smoe)は、ネットワークの深さや幅を増加させる手段を超えて、モデルの複雑さをスケールアップするための魅力的なソリューションを提供する。
しかし、SMoEの効果的なトレーニングは、パラメータ冗長性と限られた表現ポテンシャルを引き起こす表現崩壊問題のために困難であることが証明されている。
本研究では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
さらに,競争結果を予測するシンプルなルータを配置することにより,大規模言語モデルを効果的かつ効率的に学習するアルゴリズムCompeteSMoEを提案する。
その結果、CompeteSMoEは演算オーバーヘッドを低くしながら競合ルーティングポリシから高いパフォーマンスを享受できる。
2つのトランスフォーマーアーキテクチャと幅広いタスクに関する広範な経験的評価から,コンピテンシーの有効性,堅牢性,スケーラビリティを,最先端のsmoe戦略と比較した。
関連論文リスト
- SimSMoE: Solving Representational Collapse via Similarity Measure [34.20340688374905]
SMOE(Sparse mixed of experts)は、計算コストを一定に保ちながら、大きな言語モデルをスケールするための効果的なアプローチとして登場した。
本稿では、ニューラルネットワークアルゴリズムの新たな類似性であるSimSMoE(Simisity-based Sparse Mixture of Experts)を提案する。
論文 参考訳(メタデータ) (2024-06-22T16:10:45Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Building Robust Ensembles via Margin Boosting [98.56381714748096]
敵のロバスト性においては、単一のモデルは通常、全ての敵の攻撃に対して十分な力を持っていない。
我々は最大利得のアンサンブルを学習するアルゴリズムを開発した。
提案アルゴリズムは,既存のアンサンブル技術に勝るだけでなく,エンド・ツー・エンドで訓練された大規模モデルにも勝ることを示す。
論文 参考訳(メタデータ) (2022-06-07T14:55:58Z) - A portfolio-based analysis method for competition results [0.8680676599607126]
本稿では,コンペティションに参加する問題解決者のパフォーマンスを補完するポートフォリオベースの分析手法について述べる。
本手法はMiniZinc Challengesの結果に示され,ポートフォリオの観点から得られた新たな知見が提示される。
論文 参考訳(メタデータ) (2022-05-30T20:20:45Z) - Continual Competitive Memory: A Neural System for Online Task-Free
Lifelong Learning [91.3755431537592]
我々は,教師なし学習,連続競合記憶(CCM)の新たな形態を提案する。
結果として得られる神経系は、オンライン連続分類問題において破滅的な忘れと戦う効果的なアプローチを提供する。
提案したCCMシステムは,他の競合学習ニューラルモデルよりも優れるだけでなく,最新かつ最先端の学習アプローチと競合する性能が得られることを実証する。
論文 参考訳(メタデータ) (2021-06-24T20:12:17Z) - Towards robust and domain agnostic reinforcement learning competitions [12.731614722371376]
強化学習コンペティションは標準研究ベンチマークの基礎を形成している。
それにもかかわらず、ほとんどの課題は、同じ根本的な問題に悩まされている。
本稿では,これらの障壁を克服するアルゴリズムの開発を促進する,競争設計の新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。