Fugu-MT 論文翻訳(概要): HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference

論文の概要: HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference

arxiv url: http://arxiv.org/abs/2411.01433v1
Date: Sun, 03 Nov 2024 04:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.766675
Title: HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference
Title（参考訳）: 高速MoE推論のための混合精度エキスパートオフロードシステムHOBBIT
Authors: Peng Tang, Jiacheng Liu, Xiaofeng Hou, Yifei Pu, Jing Wang, Pheng-Ann Heng, Chao Li, Minyi Guo,
Abstract要約: フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
参考スコア（独自算出の注目度）: 54.40808356999408
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Mixture-of-Experts (MoE) architecture has demonstrated significant advantages in the era of Large Language Models (LLMs), offering enhanced capabilities with reduced inference costs. However, deploying MoE-based LLMs on memoryconstrained edge devices remains challenging due to their substantial memory requirements. While existing expertoffloading methods alleviate the memory requirements, they often incur significant expert-loading costs or compromise model accuracy. We present HOBBIT, a mixed precision expert offloading system to enable flexible and efficient MoE inference. Our key insight is that dynamically replacing less critical cache-miss experts with low precision versions can substantially reduce expert-loading latency while preserving model accuracy. HOBBIT introduces three innovative techniques that map the natural hierarchy of MoE computation: (1) a token-level dynamic expert loading mechanism, (2) a layer-level adaptive expert prefetching technique, and (3) a sequence-level multidimensional expert caching policy. These innovations fully leverage the benefits of mixedprecision expert inference. By implementing HOBBIT on top of the renowned LLM inference framework Llama.cpp, we evaluate its performance across different edge devices with representative MoE models. The results demonstrate that HOBBIT achieves up to a 9.93x speedup in decoding compared to state-of-the-art MoE offloading systems.
Abstract（参考訳）: Mixture-of-Experts (MoE) アーキテクチャは,Large Language Models (LLMs) の時代において,推論コストを削減した拡張機能を提供する大きなアドバンテージを実証している。しかし、メモリ制約のあるエッジデバイスにMoEベースのLLMをデプロイすることは、かなりのメモリ要件のため、依然として困難である。既存のエキスパートオフロード手法はメモリ要件を緩和するが、専門家負荷のコストを大幅に削減したり、モデルの精度を損なうことも多い。フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることによって、モデルの正確性を保ちながら、専門家の負荷遅延を大幅に削減できるということです。 HOBBITでは,(1)トークンレベルの動的エキスパートロード機構,(2)階層レベルの適応型エキスパートプリフェッチ技術,(3)シーケンスレベルの多次元エキスパートキャッシュポリシという,MoE計算の自然な階層をマッピングする3つの革新的な手法を導入している。これらの革新は、混合精度専門家推論の利点を十分に活用する。有名なLLM推論フレームワークであるLlama.cpp上にHOBBITを実装することにより、代表的MoEモデルを用いて、異なるエッジデバイス間での性能を評価する。その結果、HOBBITは最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成した。

関連論文リスト

MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts [29.437264687850874]
提案するMoE-SpeQは,投機的実行と専門家のオフロードを共設計した新しい推論システムである。 MoE-SpeQは、将来のトークンに必要な専門家のシーケンスを予測するために、小さなオンデバイスドラフトモデルを採用している。 Phi-MoEモデルでは,MoE-SpeQは最先端のオフロードフレームワークよりも2.34倍の高速化を実現している。
論文参考訳（メタデータ） (2025-11-18T03:40:19Z)
In-depth Analysis on Caching and Pre-fetching in Mixture of Experts Offloading [4.043126179945037]
MoEのオフロードを深く研究し、以下に貢献する。専門家のアクティベーションとLRUキャッシングの挙動を詳細に分析し、トレースを提供する。我々は、投機的専門家によるプレフェッチの実装と実験を行い、その大きな可能性を示す詳細なトレースを提供する。
論文参考訳（メタデータ） (2025-11-08T03:04:11Z)
MoBiLE: Efficient Mixture-of-Experts Inference on Consumer GPU with Mixture of Big Little Experts [17.518573710849513]
MoBiLEは、プラグイン・アンド・プレイのオフロードベースのMoE推論フレームワークで、大手専門家のテキストミキサーを備えている。 MoBiLEは、コンシューマGPUシステムのベースラインと比較して1.60倍から1.72倍のスピードアップを実現し、精度の劣化は無視できる。
論文参考訳（メタデータ） (2025-10-14T10:22:44Z)
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文参考訳（メタデータ） (2025-02-07T22:51:17Z)
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference [14.57414071160821]
本稿では,トークン生成時に専門家の再利用を活用し,キャッシュの局所性を改善する新しいキャッシュ対応ルーティング戦略を提案する。モバイルデバイス上での2$times$のスピードアップを実演する。
論文参考訳（メタデータ） (2024-11-27T18:59:48Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。 AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-08-19T03:27:15Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2023-08-28T06:56:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。