Fugu-MT 論文翻訳(概要): FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices

論文の概要: FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices

arxiv url: http://arxiv.org/abs/2601.17063v1
Date: Thu, 22 Jan 2026 17:07:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-27 15:23:07.11174
Title: FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices
Title（参考訳）: FlashMoE: エッジデバイス上でのMixture-of-Experts推論のためのMLベースのキャッシュ置換によるSSD I/Oブートネックの削減
Authors: Byeongju Kim, Jungwan Lee, Donghyeon Han, Hoi-Jun Yoo, Sangyeob Kim,
Abstract要約: Mixture-of-Experts (MoE)モデルは、大規模言語モデルを効率的にスケールするために注目を集めている。 MoEモデルは極めて大きく、そのスパースアクティベーションは、一度にモデルのごく一部にアクセスすることで推論を行うことができる。 SSDに非アクティブな専門家をオフロードするシステムであるFlashMoEを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Mixture-of-Experts (MoE) models have gained attention for efficiently scaling large language models. Although these models are extremely large, their sparse activation enables inference to be performed by accessing only a fraction of the model at a time. This property opens the possibility of on-device inference of MoE, which was previously considered infeasible for such large models. Consequently, various systems have been proposed to leverage this sparsity and enable efficient MoE inference for edge devices. However, previous MoE inference systems like Fiddler[8] or DAOP[13] rely on DRAM-based offloading and are not suitable for memory constrained on-device environments. As recent MoE models grow to hundreds of gigabytes, RAM-offloading solutions become impractical. To address this, we propose FlashMoE, a system that offloads inactive experts to SSD, enabling efficient MoE inference under limited RAM. FlashMoE incorporates a lightweight ML-based caching strategy that adaptively combines recency and frequency signals to maximize expert reuse, significantly reducing storage I/O. In addition, we built a user-grade desktop platform to demonstrate the practicality of FlashMoE. On this real hardware setup, FlashMoE improves cache hit rate by up to 51% over well-known offloading policies such as LRU and LFU, and achieves up to 2.6x speedup compared to existing MoE inference systems.
Abstract（参考訳）: 近年,Mixture-of-Experts(MoE)モデルは,大規模言語モデルの効率的なスケーリングに注目されている。これらのモデルは非常に大きいが、そのスパースアクティベーションはモデルの一部に一度にのみアクセスすることで推論を行うことができる。この性質は、これまでそのような大きなモデルでは実現不可能と考えられていたMoEのオンデバイス推論の可能性を開く。その結果、この空間を有効利用し、エッジデバイスに対する効率的なMoE推論を実現するために、様々なシステムが提案されている。しかし、Fiddler[8]やDAOP[13]のような以前のMoE推論システムは、DRAMベースのオフロードに依存しており、デバイス上のメモリ制限環境には適していない。最近のMoEモデルが数百ギガバイトに成長するにつれ、RAMオフロードソリューションは実用的ではない。そこで本研究では,非アクティブなエキスパートをSSDにオフロードするシステムであるFlashMoEを提案する。 FlashMoEには軽量のMLベースのキャッシュ戦略が組み込まれており、レレンシと周波数信号を適応的に組み合わせて専門家の再利用を最大化し、ストレージI/Oを大幅に削減する。さらに、FlashMoEの実用性を示すために、ユーザグレードのデスクトッププラットフォームを構築しました。この実際のハードウェア設定では、FlashMoEはLRUやLFUのようなよく知られたオフロードポリシーよりも最大51%キャッシュヒット率を改善し、既存のMoE推論システムと比較して最大2.6倍のスピードアップを実現している。

関連論文リスト

ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。 ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文参考訳（メタデータ） (2026-01-29T02:51:59Z)
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文参考訳（メタデータ） (2025-12-16T04:39:10Z)
SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文参考訳（メタデータ） (2025-06-23T07:15:59Z)
FlashMoE: Fast Distributed MoE in a Single Kernel [1.866526462692252]
FlashMoEは、専門家の計算とGPU間通信を単一の永続GPUカーネルに融合する、完全にGPU対応のMoE演算子である。我々は、FlashMoEがGPU利用率を最大9倍、レイテンシを6倍、スループットを5.7倍、オーバーラップ効率を最先端のベースラインに比べて4倍向上することを示した。
論文参考訳（メタデータ） (2025-06-05T06:29:14Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
Taming Latency-Memory Trade-Off in MoE-Based LLM Serving via Fine-Grained Expert Offloading [7.9192039061119255]
FineMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。 FineMoEは推論遅延を47%削減し、最先端ソリューションよりもエキスパートのヒット率を39%向上させる。
論文参考訳（メタデータ） (2025-02-07T22:51:17Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
ProMoE: Fast MoE-based LLM Serving using Proactive Caching [4.305883455005433]
本稿では,プロアクティブキャッシュシステムProMoEについて紹介する。 ProMoEはプリフィルおよびデコード段階で平均2.20倍(最大3.21倍)と2.07倍(最大5.02倍)のスピードアップを達成する。
論文参考訳（メタデータ） (2024-10-29T15:31:27Z)
MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models [15.346491299728463]
MoNDEは、$textithot$のエキスパートだけをGPUに転送することで、MoEパラメータの運動量を削減する。 MoNDEは通信効率のよいMoE推論を可能にし、結果としてかなりのスピードアップをもたらす。
論文参考訳（メタデータ） (2024-05-29T07:23:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。