論文の概要: D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving
- arxiv url: http://arxiv.org/abs/2504.15299v1
- Date: Thu, 17 Apr 2025 05:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 02:27:30.495882
- Title: D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving
- Title(参考訳): D$^{2}$MoE: 効率的なオンデバイスMOEベースのLCMサービングのためのデュアルルーティングと動的スケジューリング
- Authors: Haodong Wang, Qihua Zhou, Zicong Hong, Song Guo,
- Abstract要約: 専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
- 参考スコア(独自算出の注目度): 14.607254882119507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mixture of experts (MoE) model is a sparse variant of large language models (LLMs), designed to hold a better balance between intelligent capability and computational overhead. Despite its benefits, MoE is still too expensive to deploy on resource-constrained edge devices, especially with the demands of on-device inference services. Recent research efforts often apply model compression techniques, such as quantization, pruning and merging, to restrict MoE complexity. Unfortunately, due to their predefined static model optimization strategies, they cannot always achieve the desired quality-overhead trade-off when handling multiple requests, finally degrading the on-device quality of service. These limitations motivate us to propose the D$^2$MoE, an algorithm-system co-design framework that matches diverse task requirements by dynamically allocating the most proper bit-width to each expert. Specifically, inspired by the nested structure of matryoshka dolls, we propose the matryoshka weight quantization (MWQ) to progressively compress expert weights in a bit-nested manner and reduce the required runtime memory. On top of it, we further optimize the I/O-computation pipeline and design a heuristic scheduling algorithm following our hottest-expert-bit-first (HEBF) principle, which maximizes the expert parallelism between I/O and computation queue under constrained memory budgets, thus significantly reducing the idle temporal bubbles waiting for the experts to load. Evaluations on real edge devices show that D$^2$MoE improves the overall inference throughput by up to 1.39$\times$ and reduces the peak memory footprint by up to 53% over the latest on-device inference frameworks, while still preserving comparable serving accuracy as its INT8 counterparts.
- Abstract(参考訳): 専門家(MoE)モデルの混合は、知的能力と計算オーバーヘッドのバランスを改善するために設計された大型言語モデル(LLM)のスパース変種である。
メリットはあるものの、特にオンデバイス推論サービスの要求により、リソース制約のあるエッジデバイスにデプロイするには、MoEはまだ高価すぎる。
近年の研究では、MoEの複雑性を抑制するために、量子化、プルーニング、マージといったモデル圧縮技術が適用されている。
残念なことに、事前に定義された静的モデル最適化戦略のため、複数のリクエストを処理する際に常に望まれる品質とオーバヘッドのトレードオフを達成できず、最終的にオンデバイス品質のサービス品質を低下させます。
D$^2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム-システム協調設計フレームワークである。
具体的には,マツリシカ人形のネスト構造から着想を得たマツリシカ重量量子化法(MWQ)を提案する。
さらに、I/O計算パイプラインを最適化し、制約されたメモリ予算下でのI/Oと計算キューの並列性を最大化し、専門家がロードするのを待つアイドル時間バブルを著しく低減するHBF(Hottest-expert-bit-first)原則に従ってヒューリスティックなスケジューリングアルゴリズムを設計する。
実際のエッジデバイスでの評価によると、D$^2$MoEは、全体的な推論スループットを最大1.39$\times$に改善し、最新のオンデバイス推論フレームワークよりもピークメモリフットプリントを最大53%削減する一方で、INT8と同等の精度を保っている。
関連論文リスト
- eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。
eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。
また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文 参考訳(メタデータ) (2025-03-10T01:11:52Z) - JAQ: Joint Efficient Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration [38.264287509278866]
本稿では,3つの臨界次元を協調的に最適化するJAQフレームワークを提案する。
ソフトウェア側のメモリオーバーヘッド: 低精度の量子化対応トレーニングは、メモリ使用量を大幅に増加させる可能性がある。
ハードウェア側での検索時間: ハードウェアパラメータの離散的な性質と、コンパイラ最適化と個々の演算子間の複雑な相互作用は、アクセラレーター検索に時間を要する。
論文 参考訳(メタデータ) (2025-01-09T16:10:06Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Mixture of Nested Experts: Adaptive Processing of Visual Tokens [49.43920770789789]
Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T13:19:31Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - EdgeMoE: Empowering Sparse Large Language Models on Mobile Devices [3.3947808667959536]
EdgeMoEは、Mix-of-expert (MoE) LLM用のオンデバイス推論エンジンである。
非専門家の重みはデバイスメモリに保持されるが、専門家の重みは外部ストレージに保持され、アクティベート時にのみメモリにフェッチされる。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。