論文の概要: CoMoE: Collaborative Optimization of Expert Aggregation and Offloading for MoE-based LLMs at Edge
- arxiv url: http://arxiv.org/abs/2508.09208v1
- Date: Sun, 10 Aug 2025 14:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.618011
- Title: CoMoE: Collaborative Optimization of Expert Aggregation and Offloading for MoE-based LLMs at Edge
- Title(参考訳): CoMoE: エッジにおけるMoEベースのLLMのためのエキスパートアグリゲーションとオフロードの協調最適化
- Authors: Muqing Li, Ning Li, Xin Yuan, Wenchao Xu, Quan Chen, Song Guo, Haijun Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、計算コストを制御しながらモデルキャパシティをスケールする有望なソリューションとして、Mixture-of-Experts (MoE)アーキテクチャを採用した。
リソース制約のあるモバイルエッジコンピューティング環境にMoEモデルをデプロイすることは、大きなメモリフットプリントと動的専門家アクティベーションパターンのため、大きな課題となる。
本稿では,エキスパートアグリゲーションとオフロード戦略を協調的に最適化する,動的リソース対応協調最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.961186929739082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of large language models (LLMs) has driven the adoption of Mixture-of-Experts (MoE) architectures as a promising solution to scale model capacity while controlling computational costs. However, deploying MoE models in resource-constrained mobile edge computing environments presents significant challenges due to their large memory footprint and dynamic expert activation patterns. To address these challenges, we propose a novel dynamic resource-aware collaborative optimization framework that jointly optimizes expert aggregation granularity and offloading strategies based on real-time device resource states, network conditions, and input characteristics in mobile edge environments, denoted as CoMoE. In CoMoE, we first systematically analyze existing expert aggregation techniques, including expert parameter merging,knowledge distillation,and parameter sharing decomposition, identifying their limitations in dynamic mobile environments.We then investigate expert offloading strategies encompassing expert prediction and prefetching, expert caching and scheduling, and multi-tier storage architectures, revealing the interdependencies between routing decisions and offloading performance.The CoMoE incorporates adaptive scheduling mechanisms that respond to user mobility and varying network conditions, enabling efficient MoE deployment across heterogeneous edge devices. Extensive experiments on real mobile edge testbeds demonstrate that CoMoE achieves approximately 70% reduction in memory usage compared to baseline methods, 10.5% lower inference latency than existing expert offloading techniques, while maintaining model performance stability. For large-scale MoE models (e.g,7.4B-parameter Switch-Base-128), the CoMoE reduces memory requirements from 15.6GB to 4.7GB, enabling deployment on resource-constrained mobile edge devices that previously could only support much smaller models.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及は、計算コストを制御しながらモデル容量をスケールする有望なソリューションとして、Mixture-of-Experts (MoE)アーキテクチャの採用を促した。
しかし、リソース制約のあるモバイルエッジコンピューティング環境にMoEモデルをデプロイすることは、大きなメモリフットプリントと動的専門家アクティベーションパターンによって大きな課題を生じさせる。
このような課題に対処するため、我々は、CoMoEと表記されるモバイルエッジ環境における、リアルタイムデバイスリソース状態、ネットワーク条件、入力特性に基づいて、エキスパートアグリゲーションの粒度とオフロード戦略を協調的に最適化する、新しい動的リソース対応協調最適化フレームワークを提案する。
CoMoEでは、まず、エキスパートパラメータのマージ、知識蒸留、パラメータ共有分解、動的移動環境における制限の特定など、既存のエキスパートアグリゲーション手法を体系的に分析し、エキスパート予測やプリフェッチ、エキスパートキャッシング、スケジューリング、マルチ層ストレージアーキテクチャを含むエキスパートオフロード戦略を調査し、ルーティング決定とオフロード性能の相互依存性を明らかにします。
実際のモバイルエッジテストベッドでの大規模な実験では、CoMoEはベースライン法に比べて約70%のメモリ使用量の削減を実現し、既存の専門家のオフロード技術よりも10.5%低い推論遅延を実現し、モデル性能の安定性を維持している。
大規模なMoEモデル(例:7.4BパラメーターのSwitch-Base-128)では、CoMoEはメモリ要求を15.6GBから4.7GBに削減し、これまではより小さなモデルしかサポートできなかったリソース制約のモバイルエッジデバイスへの展開を可能にした。
関連論文リスト
- Deploying Large AI Models on Resource-Limited Devices with Split Federated Learning [39.73152182572741]
本稿では、SFLAM(Quantized Split Federated Fine-Tuning Large AI Model)と呼ばれる新しいフレームワークを提案する。
エッジデバイスとサーバ間のトレーニング負荷を分割することで、SFLAMはデバイス上の大規模なモデルの操作を容易にすることができる。
SFLAMは、トレーニング効率を高めるために、量子化管理、電力制御、帯域幅割り当て戦略を取り入れている。
論文 参考訳(メタデータ) (2025-04-12T07:55:11Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - SwapMoE: Serving Off-the-shelf MoE-based Large Language Models with Tunable Memory Budget [20.33693233516486]
我々は,学習可能なメモリ予算を備えたMoEベースの大規模言語モデルの効率的な機能を実現するためのフレームワークであるSwapMoEを紹介する。
SwapMoEは適切な精度を維持しながらメモリフットプリントを削減できることが実験で示されている。
論文 参考訳(メタデータ) (2023-08-29T05:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。