論文の概要: FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices
- arxiv url: http://arxiv.org/abs/2601.17063v1
- Date: Thu, 22 Jan 2026 17:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.11174
- Title: FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices
- Title(参考訳): FlashMoE: エッジデバイス上でのMixture-of-Experts推論のためのMLベースのキャッシュ置換によるSSD I/Oブートネックの削減
- Authors: Byeongju Kim, Jungwan Lee, Donghyeon Han, Hoi-Jun Yoo, Sangyeob Kim,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、大規模言語モデルを効率的にスケールするために注目を集めている。
MoEモデルは極めて大きく、そのスパースアクティベーションは、一度にモデルのごく一部にアクセスすることで推論を行うことができる。
SSDに非アクティブな専門家をオフロードするシステムであるFlashMoEを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Mixture-of-Experts (MoE) models have gained attention for efficiently scaling large language models. Although these models are extremely large, their sparse activation enables inference to be performed by accessing only a fraction of the model at a time. This property opens the possibility of on-device inference of MoE, which was previously considered infeasible for such large models. Consequently, various systems have been proposed to leverage this sparsity and enable efficient MoE inference for edge devices. However, previous MoE inference systems like Fiddler[8] or DAOP[13] rely on DRAM-based offloading and are not suitable for memory constrained on-device environments. As recent MoE models grow to hundreds of gigabytes, RAM-offloading solutions become impractical. To address this, we propose FlashMoE, a system that offloads inactive experts to SSD, enabling efficient MoE inference under limited RAM. FlashMoE incorporates a lightweight ML-based caching strategy that adaptively combines recency and frequency signals to maximize expert reuse, significantly reducing storage I/O. In addition, we built a user-grade desktop platform to demonstrate the practicality of FlashMoE. On this real hardware setup, FlashMoE improves cache hit rate by up to 51% over well-known offloading policies such as LRU and LFU, and achieves up to 2.6x speedup compared to existing MoE inference systems.
- Abstract(参考訳): 近年,Mixture-of-Experts(MoE)モデルは,大規模言語モデルの効率的なスケーリングに注目されている。
これらのモデルは非常に大きいが、そのスパースアクティベーションはモデルの一部に一度にのみアクセスすることで推論を行うことができる。
この性質は、これまでそのような大きなモデルでは実現不可能と考えられていたMoEのオンデバイス推論の可能性を開く。
その結果、この空間を有効利用し、エッジデバイスに対する効率的なMoE推論を実現するために、様々なシステムが提案されている。
しかし、Fiddler[8]やDAOP[13]のような以前のMoE推論システムは、DRAMベースのオフロードに依存しており、デバイス上のメモリ制限環境には適していない。
最近のMoEモデルが数百ギガバイトに成長するにつれ、RAMオフロードソリューションは実用的ではない。
そこで本研究では,非アクティブなエキスパートをSSDにオフロードするシステムであるFlashMoEを提案する。
FlashMoEには軽量のMLベースのキャッシュ戦略が組み込まれており、レレンシと周波数信号を適応的に組み合わせて専門家の再利用を最大化し、ストレージI/Oを大幅に削減する。
さらに、FlashMoEの実用性を示すために、ユーザグレードのデスクトッププラットフォームを構築しました。
この実際のハードウェア設定では、FlashMoEはLRUやLFUのようなよく知られたオフロードポリシーよりも最大51%キャッシュヒット率を改善し、既存のMoE推論システムと比較して最大2.6倍のスピードアップを実現している。
関連論文リスト
- SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。
このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。
実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文 参考訳(メタデータ) (2025-06-23T07:15:59Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Taming Latency-Memory Trade-Off in MoE-Based LLM Serving via Fine-Grained Expert Offloading [7.9192039061119255]
FineMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。
FineMoEは推論遅延を47%削減し、最先端ソリューションよりもエキスパートのヒット率を39%向上させる。
論文 参考訳(メタデータ) (2025-02-07T22:51:17Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - ProMoE: Fast MoE-based LLM Serving using Proactive Caching [4.305883455005433]
本稿では,プロアクティブキャッシュシステムProMoEについて紹介する。
ProMoEはプリフィルおよびデコード段階で平均2.20倍(最大3.21倍)と2.07倍(最大5.02倍)のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-10-29T15:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。