Fugu-MT 論文翻訳(概要): Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization

論文の概要: Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization

arxiv url: http://arxiv.org/abs/2402.12550v2
Date: Fri, 31 May 2024 14:04:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 19:52:35.286224
Title: Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization
Title（参考訳）: エキスパートのマルチ線形混合:因子化によるスケーラブルなエキスパートスペシャライゼーション
Authors: James Oldfield, Markos Georgopoulos, Grigorios G. Chrysos, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Jiankang Deng, Ioannis Patras,
Abstract要約: Mixture of Experts (MoE) パラダイムは、密度の高い層をより小さくモジュール化された計算に分解する強力な方法を提供する。大きな課題は、きめ細かい特殊化を達成するのに十分な専門家の数をスケーリングする計算コストである。視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
参考スコア（独自算出の注目度）: 51.98792406392873
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Mixture of Experts (MoE) paradigm provides a powerful way to decompose dense layers into smaller, modular computations often more amenable to human interpretation, debugging, and editability. However, a major challenge lies in the computational cost of scaling the number of experts high enough to achieve fine-grained specialization. In this paper, we propose the Multilinear Mixture of Experts ($\mu$MoE) layer to address this, focusing on vision models. $\mu$MoE layers enable scalable expert specialization by performing an implicit computation on prohibitively large weight tensors entirely in factorized form. Consequently, $\mu$MoEs (1) avoid the restrictively high inference-time costs of 'soft' MoEs, yet (2) do not inherit the training issues of the popular 'sparse' MoEs' discrete (non-differentiable) expert routing. We present both qualitative and quantitative evidence that scaling $\mu$MoE layers when fine-tuning foundation models for vision tasks leads to more specialized experts at the class-level, further enabling manual bias correction in CelebA attribute classification. Finally, we show qualitative results demonstrating the expert specialism achieved when pre-training large GPT2 and MLP-Mixer models with parameter-matched $\mu$MoE blocks at every layer, maintaining comparable accuracy. Our code is available at: https://github.com/james-oldfield/muMoE.
Abstract（参考訳）: Mixture of Experts (MoE)パラダイムは、高密度層をより小さく、モジュール化された計算に分解する強力な方法を提供する。しかし、大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。本稿では、視覚モデルに焦点をあてて、この問題に対処するMultilinear Mixture of Experts(\mu$MoE)層を提案する。 $\mu$MoEレイヤは、非常に大きなテンソルを完全に分解された形で暗黙の計算を行うことで、スケーラブルな専門家の特殊化を可能にする。したがって、$\mu$MoEs (1) は 'soft' MoEs の制約的に高い推論時間コストを避けるが、 (2) は、人気のある 'sparse' MoEs' の訓練問題を継承しない。我々は,視覚タスクの微調整基礎モデルにおいて,$\mu$MoE層をスケーリングすると,クラスレベルの専門家がより専門的になり,CelebA属性分類における手動バイアス補正が可能となるという定性的および定量的証拠を提示する。最後に,パラメータマッチングされた$\mu$MoEブロックを持つ大規模GPT2およびMLP-Mixerモデルを各層で事前学習し,精度を同等に保ちながら,専門家の専門性を示す定性的な結果を示す。私たちのコードは、https://github.com/james-oldfield/muMoE.comで利用可能です。

関連論文リスト

MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文参考訳（メタデータ） (2025-05-02T08:51:55Z)
Mixture of Group Experts for Learning Invariant Representations [25.935653652324532]
わずかに活性化されたMixture-of-Experts (MoE)モデルはトークン当たりの一貫した計算コストを維持しながらパラメータ数を効果的に増加させる。スパース表現にインスパイアされた上位$kのルーティングによるバニラMOEの新しい視点を示す。グループエキスパートの混合(Mixture of Group Experts, MOGE)と呼ばれるトップ$kのルーティング入力に対するグループスパース正規化手法を提案する。
論文参考訳（メタデータ） (2025-04-12T15:58:02Z)
Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文参考訳（メタデータ） (2025-03-11T14:15:01Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。本稿では,BAM(Branch-Attend-Mix)を提案する。 5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文参考訳（メタデータ） (2024-08-15T17:19:12Z)
Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文参考訳（メタデータ） (2024-07-04T20:59:20Z)
Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測 Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文参考訳（メタデータ） (2024-03-26T05:48:02Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。 MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文参考訳（メタデータ） (2023-10-03T20:11:23Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)
Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文参考訳（メタデータ） (2022-04-22T09:40:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。