Fugu-MT 論文翻訳(概要): AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference

論文の概要: AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference

arxiv url: http://arxiv.org/abs/2408.10284v1
Date: Mon, 19 Aug 2024 03:27:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 18:14:26.733017
Title: AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference
Title（参考訳）: AdapMoE: 効果的なMoE推論のための適応感性に基づくエキスパートゲーティングとマネジメント
Authors: Shuzhang Zhong, Ling Liang, Yuan Wang, Runsheng Wang, Ru Huang, Meng Li,
Abstract要約: AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。 AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
参考スコア（独自算出の注目度）: 13.263938935671646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-Experts (MoE) models are designed to enhance the efficiency of large language models (LLMs) without proportionally increasing the computational demands. However, their deployment on edge devices still faces significant challenges due to high on-demand loading overheads from managing sparsely activated experts. This paper introduces AdapMoE, an algorithm-system co-design framework for efficient MoE inference. AdapMoE features adaptive expert gating and management to reduce the on-demand loading overheads. We observe the heterogeneity of experts loading across layers and tokens, based on which we propose a sensitivity-based strategy to adjust the number of activated experts dynamically. Meanwhile, we also integrate advanced prefetching and cache management techniques to further reduce the loading latency. Through comprehensive evaluations on various platforms, we demonstrate AdapMoE consistently outperforms existing techniques, reducing the average number of activated experts by 25% and achieving a 1.35x speedup without accuracy degradation. Code is available at: https://github.com/PKU-SEC-Lab/AdapMoE.
Abstract（参考訳）: Mixture-of-Experts (MoE)モデルは、計算要求を比例的に増加させることなく、大きな言語モデル(LLM)の効率を向上させるように設計されている。しかしながら、エッジデバイスへのデプロイメントは、わずかにアクティベートされた専門家の管理によるオンデマンドロードのオーバーヘッドが高いため、依然として重大な課題に直面している。本稿では,効率的なMoE推論のためのアルゴリズム・システム協調設計フレームワークであるAdapMoEを紹介する。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。そこで我々は,アクティベートされた専門家の数を動的に調整するための感度に基づく戦略を提案する。また、ロード遅延をさらに削減するために、高度なプリフェッチとキャッシュ管理技術を統合しています。様々なプラットフォーム上での総合的な評価を通じて、AdapMoEは既存の手法を一貫して上回り、アクティベートした専門家の平均数を25%削減し、精度を低下させることなく1.35倍のスピードアップを達成した。コードは、https://github.com/PKU-SEC-Lab/AdapMoE.comで入手できる。

関連論文リスト

EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization [46.40666108181214]
Mixture-of-Experts (MoE)モデルは、大規模なディープラーニングの基盤として現れている。 MoEモデルは、従来の量子化技術に挑戦する固有の複雑さを持つ。我々は,MoE アーキテクチャに適した新しい PTQ フレームワークである EAQuant を提案する。
論文参考訳（メタデータ） (2025-06-16T10:18:50Z)
Faster MoE LLM Inference for Extremely Large Models [75.57674991584608]
きめ細かいMoEモデルは人気を集めているが、研究は限られている。アクティベートされた専門家の数を削減すれば、特定のシナリオにおける大幅な効率改善につながる可能性がある。性能劣化を伴わずにスループットを少なくとも10%向上させることができる。
論文参考訳（メタデータ） (2025-05-06T13:41:17Z)
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。 MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs [30.07344792770254]
我々は,SMoEモデルのエキスパートの育成を促進するため,EEP(Efficient Expert Pruning)と呼ばれる勾配のない進化戦略を導入する。 EEPは、ダウンストリームタスクのパフォーマンスを維持したり改善したりしながら、モデル推論(すなわち、勾配計算をしない)とより大きな疎性にのみ依存する。実験の結果,Mixtral 8times7$B-Instructのエキスパートの75%が,性能損失を最小限に抑えたパラメータの大幅な削減を達成できた。
論文参考訳（メタデータ） (2024-07-01T03:57:35Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。