Fugu-MT 論文翻訳(概要): LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training

論文の概要: LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training

arxiv url: http://arxiv.org/abs/2406.00023v1
Date: Fri, 24 May 2024 02:50:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-09 16:09:32.357577
Title: LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training
Title（参考訳）: LocMoE+:効率的なLCM事前学習のためのトークン特徴認識機能強化ルータ
Authors: Jing Li, Zhijie Sun, Dachao Lin, Xuan He, Yi Lin, Binfan Zheng, Li Zeng, Rongqian Zhao, Xin Chen,
Abstract要約: 我々はローオーバーヘッドのLocMoEの洗練されたバージョンであるLocMoE+を紹介する。 LocMoE+は、GDAD、C-Eval、TeleQnAデータセット全体で9.7%から14.1%のパフォーマンス向上を示している。
参考スコア（独自算出の注目度）: 16.539855450082946
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Mixture-of-Experts (MoE) architectures have recently gained increasing popularity within the domain of large language models (LLMs) due to their ability to significantly reduce training and inference overhead. However, MoE architectures face challenges, such as significant disparities in the number of tokens assigned to each expert and a tendency toward homogenization among experts, which adversely affects the model's semantic generation capabilities. In this paper, we introduce LocMoE+, a refined version of the low-overhead LocMoE, incorporating the following enhancements: (1) Quantification and definition of the affinity between experts and tokens. (2) Implementation of a global-level adaptive routing strategy to rearrange tokens based on their affinity scores. (3) Reestimation of the lower bound for expert capacity, which has been shown to progressively decrease as the token feature distribution evolves. Experimental results demonstrate that, without compromising model convergence or efficacy, the number of tokens each expert processes can be reduced by over 60%. Combined with communication optimizations, this leads to an average improvement in training efficiency ranging from 5.4% to 46.6%. After fine-tuning, LocMoE+ exhibits a performance improvement of 9.7% to 14.1% across the GDAD, C-Eval, and TeleQnA datasets.
Abstract（参考訳）: Mixture-of-Experts (MoE)アーキテクチャは、トレーニングと推論オーバーヘッドを大幅に削減できるため、最近、大規模言語モデル(LLM)のドメイン内で人気が高まっている。しかし、MoEアーキテクチャは、各専門家に割り当てられたトークンの数や、モデルのセマンティックジェネレーション能力に悪影響を及ぼす専門家間の均質化傾向など、大きな差異のような課題に直面している。本稿では,ローオーバーヘッド型 LocMoE の改良版 LocMoE+ を紹介し,(1) 専門家とトークン間の親和性の定量化と定義を取り入れた。 2) 親和性スコアに基づいてトークンを並べ替えるグローバルレベル適応ルーティング戦略の実装。 (3) トークンの特徴分布が発展するにつれて, 専門家の能力に対する低い限界の再推定が徐々に減少することが示されている。実験結果から, モデル収束や有効性を損なうことなく, 各専門家プロセスのトークン数を60%以上削減できることがわかった。コミュニケーション最適化と組み合わせることで、トレーニング効率が平均5.4%から46.6%向上する。微調整後、LocMoE+はGDAD、C-Eval、TeleQnAデータセット間で9.7%から14.1%のパフォーマンス向上を示した。

関連論文リスト

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文参考訳（メタデータ） (2025-06-23T02:15:43Z)
EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization [46.40666108181214]
Mixture-of-Experts (MoE)モデルは、大規模なディープラーニングの基盤として現れている。 MoEモデルは、従来の量子化技術に挑戦する固有の複雑さを持つ。我々は,MoE アーキテクチャに適した新しい PTQ フレームワークである EAQuant を提案する。
論文参考訳（メタデータ） (2025-06-16T10:18:50Z)
Advancing Expert Specialization for Better MoE [22.570561334474252]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文参考訳（メタデータ） (2025-05-28T13:09:47Z)
Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文参考訳（メタデータ） (2025-03-11T14:15:01Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。 MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。 AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-08-19T03:27:15Z)
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。 MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文参考訳（メタデータ） (2024-07-31T17:46:51Z)
PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文参考訳（メタデータ） (2024-07-06T09:04:27Z)
Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文参考訳（メタデータ） (2024-05-23T12:45:29Z)
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-06T03:06:33Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文参考訳（メタデータ） (2024-01-25T03:36:39Z)
Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文参考訳（メタデータ） (2024-01-16T14:16:47Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
Asynchronous Federated Learning with Incentive Mechanism Based on Contract Theory [5.502596101979607]
本稿では,契約理論に基づくインセンティブ機構を統合した新しい非同期FLフレームワークを提案する。攻撃対象のローカルSGDよりも精度が1.35%向上した。
論文参考訳（メタデータ） (2023-10-10T09:17:17Z)
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。 GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文参考訳（メタデータ） (2022-03-02T13:44:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。