論文の概要: DALI: A Workload-Aware Offloading Framework for Efficient MoE Inference on Local PCs
- arxiv url: http://arxiv.org/abs/2602.03495v1
- Date: Tue, 03 Feb 2026 13:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.460917
- Title: DALI: A Workload-Aware Offloading Framework for Efficient MoE Inference on Local PCs
- Title(参考訳): DALI: ローカルPC上での効率的なMoE推論のためのワークロード対応オフロードフレームワーク
- Authors: Zeyu Zhu, Gang Li, Peisong Wang, Zitao Mo, Minnan Pei, Zhuoran Song, Xiaoyao Liang, Jian Cheng,
- Abstract要約: メモリをホストするためにMoE専門家パラメータをオフロードし、CPUとGPUの計算を活用することが、リソース制約のあるローカルPC上でそのようなモデルをサポートするための有望な方向として現れた。
既存のプレフェッチ技術では、高負荷の専門家を正確に予測できないため、不正確なプレフェッチが発生します。
ローカルPC上での効率的なMoE推論のためのワークロアDAware offLoadIngフレームワークであるDALIを提案する。
- 参考スコア(独自算出の注目度): 28.841079546977458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of Experts (MoE) architectures significantly enhance the capacity of LLMs without proportional increases in computation, but at the cost of a vast parameter size. Offloading MoE expert parameters to host memory and leveraging both CPU and GPU computation has recently emerged as a promising direction to support such models on resourceconstrained local PC platforms. While promising, we notice that existing approaches mismatch the dynamic nature of expert workloads, which leads to three fundamental inefficiencies: (1) Static expert assignment causes severe CPUGPU load imbalance, underutilizing CPU and GPU resources; (2) Existing prefetching techniques fail to accurately predict high-workload experts, leading to costly inaccurate prefetches; (3) GPU cache policies neglect workload dynamics, resulting in poor hit rates and limited effectiveness. To address these challenges, we propose DALI, a workloaDAware offLoadIng framework for efficient MoE inference on local PCs. To fully utilize hardware resources, DALI first dynamically assigns experts to CPU or GPU by modeling assignment as a 0-1 integer optimization problem and solving it efficiently using a Greedy Assignment strategy at runtime. To improve prefetching accuracy, we develop a Residual-Based Prefetching method leveraging inter-layer residual information to accurately predict high-workload experts. Additionally, we introduce a Workload-Aware Cache Replacement policy that exploits temporal correlation in expert activations to improve GPU cache efficiency. By evaluating across various MoE models and settings, DALI achieves significant speedups in the both prefill and decoding phases over the state-of-the-art offloading frameworks.
- Abstract(参考訳): ミキチャー・オブ・エキスパート(MoE)アーキテクチャは、計算の比例的な増加を伴わずにLLMの容量を大幅に向上するが、膨大なパラメータサイズを犠牲にしている。
メモリをホストし、CPUとGPUの計算を活用するためにMoE専門家パラメータをオフロードすることは、リソース制約のあるローカルPCプラットフォームでそのようなモデルをサポートするための有望な方向として最近現れた。
1) 静的な専門家の割り当ては、CPUとGPUのリソースを過小評価する重いCPUGPU負荷の不均衡を引き起こし、(2) 既存のプリフェッチ技術は、高負荷のエキスパートを正確に予測することができず、コストがかかる不正確なプレフェッチを引き起こし、(3) GPUキャッシュポリシーは、ワークロードのダイナミクスを無視し、ヒット率の低下と限られた効果をもたらす。
これらの課題に対処するため,ローカルPC上での効率的なMoE推論のためのワークロアDAware offLoadIngフレームワークであるDALIを提案する。
ハードウェアリソースをフル活用するために、DALIはまず、0-1整数最適化問題として割り当てをモデル化し、実行時にGreedy Assignment戦略を用いて効率よく解決することで、専門家をCPUやGPUに動的に割り当てる。
プレフェッチ精度を向上させるために,階層間残差情報を利用して高負荷専門家を正確に予測するResidual-based Prefetching法を開発した。
さらに、専門家のアクティベーションにおける時間的相関を利用してGPUキャッシュ効率を向上させるWorkload-Aware Cache Replacementポリシーを導入する。
さまざまなMoEモデルや設定を評価することで、DALIは、最先端のオフロードフレームワークに対するプリフィルとデコードの両方のフェーズにおいて、大幅なスピードアップを実現している。
関連論文リスト
- HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference [5.015541720729724]
HybriMoEは、CPU-GPUスケジューリングとキャッシュ管理システムによってリソース利用を改善するハイブリッドCPU-GPU推論フレームワークである。
我々は、kTransformersフレームワーク上にHybriMoEを実装し、3つの広く使われているMoEベースのLLM上で評価する。
論文 参考訳(メタデータ) (2025-04-08T10:47:37Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。