論文の概要: Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer
- arxiv url: http://arxiv.org/abs/2503.02495v1
- Date: Tue, 04 Mar 2025 11:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:21.423469
- Title: Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer
- Title(参考訳): Union of Experts: 等価に分解されたトランスに階層的なルーティングを適用する
- Authors: Yujiao Yang, Jing Lian, Linhui Li,
- Abstract要約: 提案するUnion-of-Experts(UoE)は,変圧器を等価な専門家グループに分解し,入力データとエキスパートの動的ルーティングを実装する。
実験により、UoEが採用するモデルは、画像領域と自然言語領域にわたる複数のタスクにおいて、フルアテンション、最先端のMoE、効率的なトランスフォーマーを超越していることが示された。
- 参考スコア(独自算出の注目度): 5.585222292493927
- License:
- Abstract: Mixture-of-Experts (MoE) enhances model performance while maintaining computational efficiency, making it well-suited for large-scale applications. However, expert in exist MoE paradigm works as an individual, thereby lacking high-quality expert interactions. Moreover, they have not been effectively extended to attention block, which constrains further efficiency improvements. To tackle these issues, we propose Union-of-Experts (UoE), which decomposes transformer into an equitant group of experts, and then implement dynamic routing on input data and experts. Our approach advances MoE design with three key innovations: (1) We conducted equitant expert decomposition on both MLP blocks and attention blocks based on matrix partition in tensor parallelism. (2) We developed two routing paradigms: patch wise data selection and expert selection, to apply routing across different levels. (3) We design the architecture of UoE model, including Selective Multi-Head Attention (SMHA) and Union-of-MLP-Experts (UoME). (4) We develop parallel implementation of UoE's routing and computation operation, and optimize efficiency based on the hardware processing analysis. The experiments demonstrate that the model employed with UoE surpass Full Attention, state-of-art MoEs and efficient transformers in several tasks across image and natural language domains. The source codes are available at https://github.com/YujiaoYang-work/UoE.
- Abstract(参考訳): Mixture-of-Experts (MoE) は計算効率を維持しながらモデル性能を向上させるため、大規模アプリケーションに適している。
しかし、既存のMoEパラダイムの専門家は個人として機能し、高品質な専門家の相互作用が欠如している。
さらに、注意ブロックまで効果的に拡張されていないため、さらなる効率改善が制限されている。
これらの課題に対処するため,我々は,変圧器を等価な専門家グループに分解するUnion-of-Experts (UoE)を提案し,入力データとエキスパートの動的ルーティングを実装した。
1) テンソル並列性における行列分割に基づくMDPブロックとアテンションブロックの等価専門家分解を行った。
2) 異なるレベルのルーティングを適用するために,パッチワイズデータ選択とエキスパート選択という2つのルーティングパラダイムを開発した。
(3)Selective Multi-Head Attention (SMHA) とUnion-of-MLP-Experts (UoME) を含むUoEモデルのアーキテクチャを設計する。
(4)UoEのルーティングと計算操作の並列実装を開発し,ハードウェア処理解析に基づいて効率を最適化する。
実験により、UoEが採用するモデルは、画像領域と自然言語領域にわたる複数のタスクにおいて、フルアテンション、最先端のMoE、効率的なトランスフォーマーを上回ることが示された。
ソースコードはhttps://github.com/YujiaoYang-work/UoEで入手できる。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models [1.4255659581428335]
そこで本稿では,DA-MoEモデルに対して,有効トークン重要度に基づく可変数のエキスパートを動的に割り当てる手法を提案する。
提案手法は,最新のトランスフォーマーベースのMoEモデルをGLUEベンチマークで一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-09-10T17:36:15Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models [33.834215393960605]
本稿では,トランスフォーマーに基づく基礎モデルのトレーニングと推論の効率を高めるために,DynMoE(Dynamic Mixture of Experts)技術を導入する。
DynMoEには、各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティングメソッドが組み込まれている。
本研究は,視覚・言語タスクにおけるGMoEと視覚言語タスクにおけるMoE-LLaVAとの競合性能を比較検討した。
論文 参考訳(メタデータ) (2024-05-23T08:18:30Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。