Fugu-MT 論文翻訳(概要): DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference

論文の概要: DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference

arxiv url: http://arxiv.org/abs/2501.10375v1
Date: Mon, 16 Dec 2024 07:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-16 22:53:28.658306
Title: DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference
Title（参考訳）: DAOP: 効率的なMoE推論のためのデータ認識のオフロードと予測前計算
Authors: Yujie Zhang, Shivam Aggarwal, Tulika Mitra,
Abstract要約: Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。 Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
参考スコア（独自算出の注目度）: 14.676716521856813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-Experts (MoE) models, though highly effective for various machine learning tasks, face significant deployment challenges on memory-constrained devices. While GPUs offer fast inference, their limited memory compared to CPUs means not all experts can be stored on the GPU simultaneously, necessitating frequent, costly data transfers from CPU memory, often negating GPU speed advantages. To address this, we present DAOP, an on-device MoE inference engine to optimize parallel GPU-CPU execution. DAOP dynamically allocates experts between CPU and GPU based on per-sequence activation patterns, and selectively pre-calculates predicted experts on CPUs to minimize transfer latency. This approach enables efficient resource utilization across various expert cache ratios while maintaining model accuracy through a novel graceful degradation mechanism. Comprehensive evaluations across various datasets show that DAOP outperforms traditional expert caching and prefetching methods by up to 8.20x and offloading techniques by 1.35x while maintaining accuracy.
Abstract（参考訳）: Mixture-of-Experts(MoE)モデルは、さまざまな機械学習タスクに非常に効果的だが、メモリに制約のあるデバイスに対する重大なデプロイメント課題に直面している。 GPUは高速な推論を提供するが、CPUと比較してメモリが限られているため、すべての専門家が同時にGPUに格納できる訳ではない。そこで我々は,並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンであるDAOPを提案する。 DAOPはシーケンス毎のアクティベーションパターンに基づいて、CPUとGPUの間でエキスパートを動的に割り当て、予測されたCPUの専門家を選択的に事前計算して、転送レイテンシを最小限にする。このアプローチは、新しい優雅な劣化機構を通じてモデル精度を維持しつつ、様々な専門家キャッシュ比の効率的な資源利用を可能にする。さまざまなデータセットの総合的な評価によると、DAOPは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロードのテクニックを1.35倍に向上させ、精度を維持している。

関連論文リスト

DALI: A Workload-Aware Offloading Framework for Efficient MoE Inference on Local PCs [28.841079546977458]
メモリをホストするためにMoE専門家パラメータをオフロードし、CPUとGPUの計算を活用することが、リソース制約のあるローカルPC上でそのようなモデルをサポートするための有望な方向として現れた。既存のプレフェッチ技術では、高負荷の専門家を正確に予測できないため、不正確なプレフェッチが発生します。ローカルPC上での効率的なMoE推論のためのワークロアDAware offLoadIngフレームワークであるDALIを提案する。
論文参考訳（メタデータ） (2026-02-03T13:11:52Z)
MELINOE: Fine-Tuning Enables Memory-Efficient Inference for Mixture-of-Experts Models [13.907916161242794]
Mixture-of-Experts (MoE)モデルアーキテクチャはトークン当たりのアクティベートパラメータの数を著しく削減することができる。彼らの全体的なパラメータ数とモデルサイズは、リソース制約された設定で広く使用されるのを妨げている。 MELINOE(MelinoE)は、MoEモデルを微調整し、より強く、配列ごとに少数の専門家を活性化する手法である。
論文参考訳（メタデータ） (2026-01-30T14:40:18Z)
Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。 Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文参考訳（メタデータ） (2026-01-29T09:23:13Z)
Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution [1.3356260369011272]
本稿では,OpenCLの微細粒度共有仮想メモリ(SVM)と機械学習モデルに基づいて,実行時間を正確に予測する軽量同期機構を提案する。 4つのモバイルプラットフォーム上での総合的な評価から,線形層で最大1.89倍,畳み込み層で最大1.75倍の高速化を実現したCPU-GPU共同実行戦略を迅速に選択できることが示唆された。
論文参考訳（メタデータ） (2025-10-24T01:41:43Z)
Accelerating Mixture-of-Expert Inference with Adaptive Expert Split Mechanism [29.862588578556366]
MoEpicは、新しい専門家分割機構を備えた効率的なMoE推論システムである。人気のあるMoE LLMの実験は、MoEpicがGPUコストの約半分を節約できることを示した。
論文参考訳（メタデータ） (2025-09-10T07:28:24Z)
Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。 MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文参考訳（メタデータ） (2025-03-20T02:31:57Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。 KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文参考訳（メタデータ） (2024-11-26T04:03:14Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Decreasing the Computing Time of Bayesian Optimization using Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。 BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文参考訳（メタデータ） (2023-09-08T14:05:56Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
HEAT: A Highly Efficient and Affordable Training System for Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文参考訳（メタデータ） (2023-04-14T18:07:26Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。