Fugu-MT 論文翻訳(概要): On the effectiveness of discrete representations in sparse mixture of experts

論文の概要: On the effectiveness of discrete representations in sparse mixture of experts

arxiv url: http://arxiv.org/abs/2411.19402v1
Date: Thu, 28 Nov 2024 22:32:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.889833
Title: On the effectiveness of discrete representations in sparse mixture of experts
Title（参考訳）: スパース混合専門家における離散表現の有効性について
Authors: Giang Do, Kha Pham, Hung Le, Truyen Tran,
Abstract要約: VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。 VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。 VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
参考スコア（独自算出の注目度）: 33.809432499123275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse mixture of experts (SMoE) is an effective solution for scaling up model capacity without increasing the computational costs. A crucial component of SMoE is the router, responsible for directing the input to relevant experts; however, it also presents a major weakness, leading to routing inconsistencies and representation collapse issues. Instead of fixing the router like previous works, we propose an alternative that assigns experts to input via indirection, which employs the discrete representation of input that points to the expert. The discrete representations are learnt via vector quantization, resulting in a new architecture dubbed Vector-Quantized Mixture of Experts (VQMoE). We provide theoretical support and empirical evidence demonstrating the VQMoE's ability to overcome the challenges present in traditional routers. Through extensive evaluations on both large language models and vision tasks for pre-training and fine-tuning, we show that VQMoE achieves a 28% improvement in robustness compared to other SMoE routing methods, while maintaining strong performance in fine-tuning tasks.
Abstract（参考訳）: スパース・ミックス・オブ・エキスパート(SMoE)は計算コストを増大させることなくモデルキャパシティをスケールアップする有効なソリューションである。 SMoEの重要なコンポーネントはルータであり、関連する専門家に入力を指示する責任がある。従来のようにルータを固定する代わりに、専門家に間接的に入力を割り当てる代替案を提案し、専門家に指示する入力の離散表現を用いる。離散表現はベクトル量子化によって学習され、Vector-Quantized Mixture of Experts (VQMoE)と呼ばれる新しいアーキテクチャとなる。従来のルータで発生する課題を克服するVQMoEの能力を示す理論的支援と実証的証拠を提供する。事前学習および微調整のための大規模言語モデルおよび視覚タスクの広範な評価を通じて、VQMoEは他のSMoEルーティング手法と比較して頑健性は28%向上し、微調整タスクでは高い性能を維持していることを示す。

関連論文リスト

Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文参考訳（メタデータ） (2025-04-08T00:49:08Z)
Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.39800923804871]
我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文参考訳（メタデータ） (2025-03-20T11:45:08Z)
ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts [71.11994027685974]
画像分類とセマンティックセグメンテーションの包括的研究を通じて,MoEを視覚に適用する可能性について検討した。性能がMoE層の構成に敏感であることから,設計を慎重に行わずに最適な結果を得ることが困難である。我々は、共有専門家を導入し、共通の知識を習得し、捕獲し、安定したViMoEを構築する効果的な方法として役立てる。
論文参考訳（メタデータ） (2024-10-21T07:51:17Z)
HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文参考訳（メタデータ） (2024-02-20T02:09:55Z)
Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文参考訳（メタデータ） (2024-02-19T21:20:22Z)
CompeteSMoE -- Effective Training of Sparse Mixture of Experts via Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文参考訳（メタデータ） (2024-02-04T15:17:09Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)
On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文参考訳（メタデータ） (2022-04-20T01:40:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。