論文の概要: ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling
- arxiv url: http://arxiv.org/abs/2601.21198v1
- Date: Thu, 29 Jan 2026 02:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.53131
- Title: ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling
- Title(参考訳): ZipMoE: ロスレス圧縮とキャッシュ親和性スケジューリングによる効率的なオンデバイスMoEサービング
- Authors: Yuchen Yang, Yaru Zhao, Pu Yang, Shaowei Wang, Zhi-Hua Zhou,
- Abstract要約: ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。
ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
- 参考スコア(独自算出の注目度): 56.88966608455977
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Mixture-of-Experts (MoE) architectures substantially bolster the expressive power of large-language models, their prohibitive memory footprint severely impedes the practical deployment on resource-constrained edge devices, especially when model behavior must be preserved without relying on lossy quantization. In this paper, we present ZipMoE, an efficient and semantically lossless on-device MoE serving system. ZipMoE exploits the synergy between the hardware properties of edge devices and the statistical redundancy inherent to MoE parameters via a caching-scheduling co-design with provable performance guarantee. Fundamentally, our design shifts the paradigm of on-device MoE inference from an I/O-bound bottleneck to a compute-centric workflow that enables efficient parallelization. We implement a prototype of ZipMoE and conduct extensive experiments on representative edge computing platforms using popular open-source MoE models and real-world workloads. Our evaluation reveals that ZipMoE achieves up to $72.77\%$ inference latency reduction and up to $6.76\times$ higher throughput than the state-of-the-art systems.
- Abstract(参考訳): Mixture-of-Experts (MoE) アーキテクチャは、大規模言語モデルの表現力を大幅に向上させるが、その禁止されたメモリフットプリントは、リソース制約されたエッジデバイスへの実践的な展開を著しく阻害する。
本稿では, ZipMoEを提案する。ZipMoEは, 効率よく, セマンティックにロスレスなデバイス上でのMoEサービスシステムである。
ZipMoEは、エッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との間の相乗効果を、証明可能な性能保証を備えたキャッシュスケジューリング共設計によって利用している。
基本的な設計では、デバイス上のMoE推論のパラダイムをI/Oバウンドボトルネックから効率的な並列化を実現する計算中心のワークフローにシフトする。
我々はZipMoEのプロトタイプを実装し、人気のあるオープンソースMoEモデルと実世界のワークロードを用いて、エッジコンピューティングプラットフォームの代表的実験を行う。
我々の評価によると、ZipMoEは72.77ドル%の推論遅延を低減し、最先端システムよりも最大6.76ドル高いスループットを実現している。
関連論文リスト
- FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices [0.0]
Mixture-of-Experts (MoE)モデルは、大規模言語モデルを効率的にスケールするために注目を集めている。
MoEモデルは極めて大きく、そのスパースアクティベーションは、一度にモデルのごく一部にアクセスすることで推論を行うことができる。
SSDに非アクティブな専門家をオフロードするシステムであるFlashMoEを提案する。
論文 参考訳(メタデータ) (2026-01-22T17:07:33Z) - MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs [9.086910335841772]
メモリウォール」のボトルネックは、現代の大規模Mixture-of-Experts (MoE)アーキテクチャで顕著に増幅されている。
私たちは、メモリ効率のよいMoEトレーニングフレームワークであるMoEBlazeを紹介します。
既存のMoEフレームワークと比較して、MoEBlazeは4倍以上のスピードアップと50%以上のメモリ節約を実現できます。
論文 参考訳(メタデータ) (2026-01-08T08:38:23Z) - SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts [29.437264687850874]
提案するMoE-SpeQは,投機的実行と専門家のオフロードを共設計した新しい推論システムである。
MoE-SpeQは、将来のトークンに必要な専門家のシーケンスを予測するために、小さなオンデバイスドラフトモデルを採用している。
Phi-MoEモデルでは,MoE-SpeQは最先端のオフロードフレームワークよりも2.34倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-18T03:40:19Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。
このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。
実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文 参考訳(メタデータ) (2025-06-23T07:15:59Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems [28.646823134800332]
MoEアーキテクチャは、LLM(Large Language Models)を効率的にスケーリングするためにますます好まれている。
既存のベンチマークは、これらのトレードオフを正確に捉えることができないことが多い。
我々は,MoEシステム用に特別に設計されたベンチマークであるMoE-CAPを紹介する。
論文 参考訳(メタデータ) (2024-12-10T00:19:28Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。