Fugu-MT 論文翻訳(概要): ProMoE: Fast MoE-based LLM Serving using Proactive Caching

論文の概要: ProMoE: Fast MoE-based LLM Serving using Proactive Caching

arxiv url: http://arxiv.org/abs/2410.22134v2
Date: Sat, 08 Feb 2025 14:11:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 16:44:24.434115
Title: ProMoE: Fast MoE-based LLM Serving using Proactive Caching
Title（参考訳）: ProMoE:プロアクティブキャッシングを用いた高速MoEベースのLDMサービング
Authors: Xiaoniu Song, Zihang Zhong, Rong Chen, Haibo Chen,
Abstract要約: 本稿では,プロアクティブキャッシュシステムProMoEについて紹介する。 ProMoEはプリフィルおよびデコード段階で平均2.20倍(最大3.21倍)と2.07倍(最大5.02倍)のスピードアップを達成する。
参考スコア（独自算出の注目度）: 4.4026892123375605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The promising applications of large language models are often limited by the constrained GPU memory capacity available on edge devices. Mixture-of-Experts (MoE) models help address this issue by activating only a subset of the model's parameters during computation. This approach allows the unused parameters to be offloaded to host memory, thereby reducing the overall GPU memory demand. However, existing cache-based offloading solutions handle cache misses reactively, which significantly impacts system performance. In this paper, we introduce ProMoE, a novel proactive caching system that utilizes intermediate results to predict subsequent expert usage. By proactively fetching experts in advance, ProMoE eliminates passive cache misses, removes loading time from the critical path, and reduces the performance overhead associated with offloading. Our evaluations demonstrate that ProMoE achieves an average speedup of 2.20x (up to 3.21x) and 2.07x (up to 5.02x) in the prefill and decode stages, respectively, compared to existing offloading solutions.
Abstract（参考訳）: 大きな言語モデルの有望なアプリケーションは、エッジデバイスで利用可能な制限付きGPUメモリ容量によって制限されることが多い。 Mixture-of-Experts (MoE) モデルは、計算中にモデルのパラメータのサブセットだけを活性化することによってこの問題に対処する。このアプローチにより、未使用のパラメータをオフロードしてホストメモリにすることで、GPUメモリ全体の要求を低減できる。しかし、既存のキャッシュベースのオフロードソリューションは、キャッシュミスをリアクティブに処理するので、システムパフォーマンスに大きな影響を与えます。本稿では,プロアクティブキャッシングシステムProMoEについて紹介する。専門家を事前にフェッチすることで、ProMoEは受動的キャッシュミスを排除し、クリティカルパスからの読み込み時間を排除し、オフロードに伴うパフォーマンスオーバーヘッドを低減する。以上の結果から,ProMoEは,既存のオフロードソリューションと比較して,プリフィルおよびデコード段階で平均2.20倍(最大3.21倍)と2.07倍(最大5.02倍)のスピードアップを達成することが示された。

関連論文リスト

MELINOE: Fine-Tuning Enables Memory-Efficient Inference for Mixture-of-Experts Models [13.907916161242794]
Mixture-of-Experts (MoE)モデルアーキテクチャはトークン当たりのアクティベートパラメータの数を著しく削減することができる。彼らの全体的なパラメータ数とモデルサイズは、リソース制約された設定で広く使用されるのを妨げている。 MELINOE(MelinoE)は、MoEモデルを微調整し、より強く、配列ごとに少数の専門家を活性化する手法である。
論文参考訳（メタデータ） (2026-01-30T14:40:18Z)
FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices [0.0]
Mixture-of-Experts (MoE)モデルは、大規模言語モデルを効率的にスケールするために注目を集めている。 MoEモデルは極めて大きく、そのスパースアクティベーションは、一度にモデルのごく一部にアクセスすることで推論を行うことができる。 SSDに非アクティブな専門家をオフロードするシステムであるFlashMoEを提案する。
論文参考訳（メタデータ） (2026-01-22T17:07:33Z)
MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs [9.086910335841772]
メモリウォール」のボトルネックは、現代の大規模Mixture-of-Experts (MoE)アーキテクチャで顕著に増幅されている。私たちは、メモリ効率のよいMoEトレーニングフレームワークであるMoEBlazeを紹介します。既存のMoEフレームワークと比較して、MoEBlazeは4倍以上のスピードアップと50%以上のメモリ節約を実現できます。
論文参考訳（メタデータ） (2026-01-08T08:38:23Z)
10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training [0.22913283036871865]
クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを,GPU,CPU,ティア間でメモリ使用量をインテリジェントに調整することで,トレーニングを高速化する。トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍に改善し、CPU/GPUメモリ使用率を最大2.15倍と1.33倍に向上させる。
論文参考訳（メタデータ） (2025-11-18T04:17:44Z)
Accelerating Mixture-of-Expert Inference with Adaptive Expert Split Mechanism [29.862588578556366]
MoEpicは、新しい専門家分割機構を備えた効率的なMoE推論システムである。人気のあるMoE LLMの実験は、MoEpicがGPUコストの約半分を節約できることを示した。
論文参考訳（メタデータ） (2025-09-10T07:28:24Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
SpecOffload: Unlocking Latent GPU Capacity for LLM Inference on Resource-Constrained Devices [16.407669822378487]
SpecOffloadは投機的デコーディングをオフロードに埋め込む。最高のベースラインと比較して、SpecOffloadはGPUコアの利用率を4.49倍改善し、推論スループットを2.54倍向上させた。
論文参考訳（メタデータ） (2025-05-15T13:10:31Z)
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。 MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。 Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文参考訳（メタデータ） (2025-04-16T23:15:09Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文参考訳（メタデータ） (2025-02-07T22:51:17Z)
Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文参考訳（メタデータ） (2024-11-25T13:33:41Z)
InstCache: A Predictive Cache for LLM Serving [9.878166964839512]
本稿では,命令整合 LLM によるユーザインストラクションの予測と,それを予測キャッシュ,いわゆる InstCache に格納することを提案する。実験の結果、InstCacheはLMSysデータセット上で最大51.34%のヒット率を達成でき、メモリコストは4.5GBに過ぎなかった。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models [15.346491299728463]
MoNDEは、$textithot$のエキスパートだけをGPUに転送することで、MoEパラメータの運動量を削減する。 MoNDEは通信効率のよいMoE推論を可能にし、結果としてかなりのスピードアップをもたらす。
論文参考訳（メタデータ） (2024-05-29T07:23:29Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
MoE-Infinity: Offloading-Efficient MoE Model Serving [15.826989637041907]
MoE-Infinity(モエ・インフィニティ)は、Sparse Mixed-of-Experts(MoE)モデルのためのオフロード効率の高いサービスシステムである。オフロードを最適化するために、MoE-Infinityはエキスパートアクティベーションのための新しい要求レベルのトレースを実現する。 MoE-Infinityはより優れたレイテンシ性能を示し、様々なMoEモデルを提供する際に2-20倍の改善を提供する。
論文参考訳（メタデータ） (2024-01-25T18:07:50Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)
Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文参考訳（メタデータ） (2023-08-23T11:25:37Z)
Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards [1.7733623930581417]
パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。 RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。 RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
論文参考訳（メタデータ） (2022-05-10T07:05:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。