論文の概要: LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2406.00023v1
- Date: Fri, 24 May 2024 02:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:09:32.357577
- Title: LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training
- Title(参考訳): LocMoE+:効率的なLCM事前学習のためのトークン特徴認識機能強化ルータ
- Authors: Jing Li, Zhijie Sun, Dachao Lin, Xuan He, Yi Lin, Binfan Zheng, Li Zeng, Rongqian Zhao, Xin Chen,
- Abstract要約: 我々はローオーバーヘッドのLocMoEの洗練されたバージョンであるLocMoE+を紹介する。
LocMoE+は、GDAD、C-Eval、TeleQnAデータセット全体で9.7%から14.1%のパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 16.539855450082946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have recently gained increasing popularity within the domain of large language models (LLMs) due to their ability to significantly reduce training and inference overhead. However, MoE architectures face challenges, such as significant disparities in the number of tokens assigned to each expert and a tendency toward homogenization among experts, which adversely affects the model's semantic generation capabilities. In this paper, we introduce LocMoE+, a refined version of the low-overhead LocMoE, incorporating the following enhancements: (1) Quantification and definition of the affinity between experts and tokens. (2) Implementation of a global-level adaptive routing strategy to rearrange tokens based on their affinity scores. (3) Reestimation of the lower bound for expert capacity, which has been shown to progressively decrease as the token feature distribution evolves. Experimental results demonstrate that, without compromising model convergence or efficacy, the number of tokens each expert processes can be reduced by over 60%. Combined with communication optimizations, this leads to an average improvement in training efficiency ranging from 5.4% to 46.6%. After fine-tuning, LocMoE+ exhibits a performance improvement of 9.7% to 14.1% across the GDAD, C-Eval, and TeleQnA datasets.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、トレーニングと推論オーバーヘッドを大幅に削減できるため、最近、大規模言語モデル(LLM)のドメイン内で人気が高まっている。
しかし、MoEアーキテクチャは、各専門家に割り当てられたトークンの数や、モデルのセマンティックジェネレーション能力に悪影響を及ぼす専門家間の均質化傾向など、大きな差異のような課題に直面している。
本稿では,ローオーバーヘッド型 LocMoE の改良版 LocMoE+ を紹介し,(1) 専門家とトークン間の親和性の定量化と定義を取り入れた。
2) 親和性スコアに基づいてトークンを並べ替えるグローバルレベル適応ルーティング戦略の実装。
(3) トークンの特徴分布が発展するにつれて, 専門家の能力に対する低い限界の再推定が徐々に減少することが示されている。
実験結果から, モデル収束や有効性を損なうことなく, 各専門家プロセスのトークン数を60%以上削減できることがわかった。
コミュニケーション最適化と組み合わせることで、トレーニング効率が平均5.4%から46.6%向上する。
微調整後、LocMoE+はGDAD、C-Eval、TeleQnAデータセット間で9.7%から14.1%のパフォーマンス向上を示した。
関連論文リスト
- MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (2024-07-31T17:46:51Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Asynchronous Federated Learning with Incentive Mechanism Based on
Contract Theory [5.502596101979607]
本稿では,契約理論に基づくインセンティブ機構を統合した新しい非同期FLフレームワークを提案する。
攻撃対象のローカルSGDよりも精度が1.35%向上した。
論文 参考訳(メタデータ) (2023-10-10T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。