論文の概要: LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2406.00023v1
- Date: Fri, 24 May 2024 02:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:09:32.357577
- Title: LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training
- Title(参考訳): LocMoE+:効率的なLCM事前学習のためのトークン特徴認識機能強化ルータ
- Authors: Jing Li, Zhijie Sun, Dachao Lin, Xuan He, Yi Lin, Binfan Zheng, Li Zeng, Rongqian Zhao, Xin Chen,
- Abstract要約: 我々はローオーバーヘッドのLocMoEの洗練されたバージョンであるLocMoE+を紹介する。
LocMoE+は、GDAD、C-Eval、TeleQnAデータセット全体で9.7%から14.1%のパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 16.539855450082946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have recently gained increasing popularity within the domain of large language models (LLMs) due to their ability to significantly reduce training and inference overhead. However, MoE architectures face challenges, such as significant disparities in the number of tokens assigned to each expert and a tendency toward homogenization among experts, which adversely affects the model's semantic generation capabilities. In this paper, we introduce LocMoE+, a refined version of the low-overhead LocMoE, incorporating the following enhancements: (1) Quantification and definition of the affinity between experts and tokens. (2) Implementation of a global-level adaptive routing strategy to rearrange tokens based on their affinity scores. (3) Reestimation of the lower bound for expert capacity, which has been shown to progressively decrease as the token feature distribution evolves. Experimental results demonstrate that, without compromising model convergence or efficacy, the number of tokens each expert processes can be reduced by over 60%. Combined with communication optimizations, this leads to an average improvement in training efficiency ranging from 5.4% to 46.6%. After fine-tuning, LocMoE+ exhibits a performance improvement of 9.7% to 14.1% across the GDAD, C-Eval, and TeleQnA datasets.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、トレーニングと推論オーバーヘッドを大幅に削減できるため、最近、大規模言語モデル(LLM)のドメイン内で人気が高まっている。
しかし、MoEアーキテクチャは、各専門家に割り当てられたトークンの数や、モデルのセマンティックジェネレーション能力に悪影響を及ぼす専門家間の均質化傾向など、大きな差異のような課題に直面している。
本稿では,ローオーバーヘッド型 LocMoE の改良版 LocMoE+ を紹介し,(1) 専門家とトークン間の親和性の定量化と定義を取り入れた。
2) 親和性スコアに基づいてトークンを並べ替えるグローバルレベル適応ルーティング戦略の実装。
(3) トークンの特徴分布が発展するにつれて, 専門家の能力に対する低い限界の再推定が徐々に減少することが示されている。
実験結果から, モデル収束や有効性を損なうことなく, 各専門家プロセスのトークン数を60%以上削減できることがわかった。
コミュニケーション最適化と組み合わせることで、トレーニング効率が平均5.4%から46.6%向上する。
微調整後、LocMoE+はGDAD、C-Eval、TeleQnAデータセット間で9.7%から14.1%のパフォーマンス向上を示した。
関連論文リスト
- Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Improving Multimodal Learning with Multi-Loss Gradient Modulation [3.082715511775795]
我々は,マルチロス目標を導入し,バランスプロセスをさらに洗練することにより,従来の作業を改善する。
CREMA-Dでは、ResNetエンコーダのバックボーンを持つモデルが、以前の最高値を1.9%から12.4%上回っている。
論文 参考訳(メタデータ) (2024-05-13T17:01:28Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
並列戦略を重畳した新しいショートカット接続型MoEアーキテクチャをScMoEとして提案する。
ScMoEは通信を従来のシーケンスから効果的に切り離し、計算で70%から100%のオーバラップを可能にする。
実験と理論分析により、ScMoEは比較できるだけでなく、既存のビジョンや言語タスクのモデル品質を超える場合もあることが示されている。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。