Fugu-MT 論文翻訳(概要): MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems

論文の概要: MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems

arxiv url: http://arxiv.org/abs/2412.07067v3
Date: Sun, 02 Mar 2025 16:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 15:02:13.529804
Title: MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems
Title（参考訳）: MoE-CAP:Sparse Mixture-of-Expertsシステムのベンチマークコスト、精度、性能
Authors: Yao Fu, Yinsicheng Jiang, Yeqi Huang, Ping Nie, Zhan Lu, Leyang Xue, Congjie He, Man-Kit Sit, Jilong Xue, Li Dong, Ziming Miao, Kai Zou, Edoardo Ponti, Luo Mai,
Abstract要約: MoE-CAPはスパースMoEシステムを評価するためのベンチマーク手法である。主なイノベーションは、コスト、パフォーマンス、精度のメトリクスを単一のダイアグラムに統合した、疎結合対応のCAP分析モデルである。
参考スコア（独自算出の注目度）: 26.493762260392284
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The Mixture-of-Experts (MoE) architecture is increasingly favored for scaling Large Language Models (LLMs). Its key feature, sparse activation, selectively activates only a subset of parameters (experts) per token, reducing memory bandwidth and compute FLOPs compared to dense models. To capitalize on this, MoE designers leverage heterogeneous compute and memory hardware to lower system costs. However, the interaction between model sparsity and hardware heterogeneity introduces trade-offs in Cost, Accuracy, and Performance (CAP). To address this, we introduce MoE-CAP, a benchmarking method for evaluating sparse MoE systems across these three dimensions. Its key innovation is a sparsity-aware CAP analysis model, the first to integrate cost, performance, and accuracy metrics into a single diagram while estimating the impact of sparsity on system performance. MoE-CAP helps practitioners optimize hardware provisioning for an MoE model-or vice versa. MoE-CAP supports various MoE models and provides more accurate metrics than existing methods.
Abstract（参考訳）: Mixture-of-Experts (MoE)アーキテクチャは、LLM(Large Language Models)のスケーリングにますます好まれている。そのキーとなる機能であるスパースアクティベーションは、トークン当たりのパラメータ(専門家)のサブセットのみを選択的に活性化し、メモリ帯域幅を減らし、高密度モデルと比較してFLOPを計算する。この利点を活かすため、MoE設計者は不均一な計算とメモリのハードウェアを活用してシステムコストを下げる。しかし、モデル空間とハードウェアの不均一性の間の相互作用は、コスト、正確性、パフォーマンス(CAP)のトレードオフをもたらす。そこで本研究では,これらの3次元にわたる疎度MoEシステムの評価を行うベンチマーク手法であるMoE-CAPを紹介する。システムパフォーマンスへの影響を推定しながら、コスト、パフォーマンス、精度のメトリクスを単一のダイアグラムに統合する。 MoE-CAPは、実践者がMoEモデルまたはその逆のハードウェアプロビジョニングを最適化するのに役立つ。 MoE-CAPは様々なMoEモデルをサポートし、既存のメソッドよりも正確なメトリクスを提供する。

関連論文リスト

Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文参考訳（メタデータ） (2025-05-21T02:23:01Z)
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems [25.47183452671666]
MoEアーキテクチャは、LLM(Large Language Models)を効率的にスケーリングするためにますます好まれている。既存のベンチマークは、これらのトレードオフを正確に捉えることができないことが多い。我々は,MoEシステム用に特別に設計されたベンチマークであるMoE-CAPを紹介する。
論文参考訳（メタデータ） (2025-05-16T16:28:38Z)
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
Samoyeds: Accelerating MoE Models with Structured Sparsity Leveraging Sparse Tensor Cores [13.089178890203652]
本稿ではスパースコア(SpTC)を利用したMOE LLMの革新的加速システムであるSamoyedsについて述べる。また、MoE計算に適したスパースデータフォーマットを導入し、特別なスパーススパース行列乗算カーネルを開発する。評価によると、SOTAはカーネルレベルでは1.99$times$、モデルレベルでは1.58$times$より優れている。
論文参考訳（メタデータ） (2025-03-13T10:34:15Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
CoSMoEs: Compact Sparse Mixture of Experts [14.576482330940262]
オンデバイス推論において,CoSMoE(Compact Sparse Mixture of Experts)を有効にする方法を示す。特に、品質、メモリ、レイテンシの3つの主要なオンデバイスディメンションに取り組みます。重量分解の専門家を導入し、MoEモデルの性能をさらに改善する。
論文参考訳（メタデータ） (2025-02-28T23:25:11Z)
COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文参考訳（メタデータ） (2025-02-24T18:42:19Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文参考訳（メタデータ） (2025-01-08T11:37:06Z)
Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。 SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。 COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2024-12-13T05:40:50Z)
GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文参考訳（メタデータ） (2024-12-06T05:46:43Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-01-29T08:13:40Z)
Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文参考訳（メタデータ） (2023-08-23T11:25:37Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。