Fugu-MT 論文翻訳(概要): SpecMoE: A Fast and Efficient Mixture-of-Experts Inference via Self-Assisted Speculative Decoding

論文の概要: SpecMoE: A Fast and Efficient Mixture-of-Experts Inference via Self-Assisted Speculative Decoding

arxiv url: http://arxiv.org/abs/2604.10152v1
Date: Sat, 11 Apr 2026 10:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.876095
Title: SpecMoE: A Fast and Efficient Mixture-of-Experts Inference via Self-Assisted Speculative Decoding
Title（参考訳）: SpecMoE: 自己支援型投機的デコーディングによる高速かつ効率的なミスマッチ推論
Authors: Jehyeon Bang, Eunyeong Cho, Ranggi Hwang, Jinha Chung, Minsoo Rhu,
Abstract要約: SpecMoEは、我々の自己支援投機的復号アルゴリズムに基づくメモリ効率の良いMoE推論システムである。我々のシステムは最大4.30タイムの推論スループットを向上し、メモリ制約システムにおけるメモリとインターコネクトの両方の帯域幅の要求を著しく低減する。
参考スコア（独自算出の注目度）: 3.1396754306335652
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The Mixture-of-Experts (MoE) architecture has emerged as a promising approach to mitigate the rising computational costs of large language models (LLMs) by selectively activating parameters. However, its high memory requirements and sub-optimal parameter efficiency pose significant challenges for efficient deployment. Although CPU-offloaded MoE inference systems have been proposed in the literature, they offer limited efficiency, particularly for large batch sizes. In this work, we propose SpecMoE, a memory-efficient MoE inference system based on our self-assisted speculative decoding algorithm. SpecMoE demonstrates the effectiveness of applying speculative decoding to MoE inference without requiring additional model training or fine-tuning. Our system improves inference throughput by up to $4.30\times$, while significantly reducing bandwidth requirements of both memory and interconnect on memory-constrained systems.
Abstract（参考訳）: Mixture-of-Experts (MoE) アーキテクチャは,パラメータを選択的に活性化することにより,大規模言語モデル(LLM)の計算コストの増大を緩和する,有望なアプローチとして登場した。しかし、その高いメモリ要求とサブ最適パラメータ効率は、効率的なデプロイメントに重大な課題をもたらす。 CPUオフロードのMoE推論システムは文献で提案されているが、特に大規模なバッチサイズにおいて、効率は限られている。本研究では,自己支援型投機復号アルゴリズムに基づくメモリ効率の高いMoE推論システムであるSpecMoEを提案する。 SpecMoEは、モデルトレーニングや微調整を必要とせずに、MoE推論に投機的デコーディングを適用する効果を実証する。我々のシステムは最大4.30\times$の推論スループットを向上し、メモリ制約システムにおけるメモリと相互接続の両方の帯域幅の要求を著しく低減する。

関連論文リスト

ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。 ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文参考訳（メタデータ） (2026-01-29T02:51:59Z)
Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。 MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。 MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文参考訳（メタデータ） (2025-11-12T13:30:57Z)
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems [28.646823134800332]
MoEアーキテクチャは、LLM(Large Language Models)を効率的にスケーリングするためにますます好まれている。既存のベンチマークは、これらのトレードオフを正確に捉えることができないことが多い。我々は,MoEシステム用に特別に設計されたベンチマークであるMoE-CAPを紹介する。
論文参考訳（メタデータ） (2024-12-10T00:19:28Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文参考訳（メタデータ） (2023-08-23T11:25:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。