Fugu-MT 論文翻訳(概要): MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models

論文の概要: MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models

arxiv url: http://arxiv.org/abs/2405.18832v1
Date: Wed, 29 May 2024 07:23:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 18:28:55.381120
Title: MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models
Title（参考訳）: MoNDE: 大規模スパースモデルのためのニアデータエキスパートの混合
Authors: Taehyun Kim, Kwanseok Choi, Youngmock Cho, Jaehoon Cho, Hyuk-Jae Lee, Jaewoong Sim,
Abstract要約: MoNDEは、$textithot$のエキスパートだけをGPUに転送することで、MoEパラメータの運動量を削減する。 MoNDEは通信効率のよいMoE推論を可能にし、結果としてかなりのスピードアップをもたらす。
参考スコア（独自算出の注目度）: 15.346491299728463
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Experts (MoE) large language models (LLM) have memory requirements that often exceed the GPU memory capacity, requiring costly parameter movement from secondary memories to the GPU for expert computation. In this work, we present Mixture of Near-Data Experts (MoNDE), a near-data computing solution that efficiently enables MoE LLM inference. MoNDE reduces the volume of MoE parameter movement by transferring only the $\textit{hot}$ experts to the GPU, while computing the remaining $\textit{cold}$ experts inside the host memory device. By replacing the transfers of massive expert parameters with the ones of small activations, MoNDE enables far more communication-efficient MoE inference, thereby resulting in substantial speedups over the existing parameter offloading frameworks for both encoder and decoder operations.
Abstract（参考訳）: MoE(Mixture-of-Experts)の大規模言語モデル(LLM)は、GPUメモリ容量を超えることが多いメモリ要件を持ち、二次記憶から専門計算のためのGPUへのコストのかかるパラメータ移動を必要とする。そこで本研究では,MoE LLM推論を効率的に実現するニアデータ・コンピューティング・ソリューションであるMixture of Near-Data Experts(MoNDE)を提案する。 MoNDEは、$\textit{hot}$専門家だけをGPUに転送し、残りの$\textit{cold}$専門家をホストメモリデバイス内で計算することで、MoEパラメータの運動量を削減している。大規模な専門家パラメータの転送を小さなアクティベーションに置き換えることで、MoNDEは通信効率のよいMoE推論を可能にし、エンコーダとデコーダの両方で既存のパラメータオフロードフレームワークを大幅に高速化する。

関連論文リスト

MELINOE: Fine-Tuning Enables Memory-Efficient Inference for Mixture-of-Experts Models [13.907916161242794]
Mixture-of-Experts (MoE)モデルアーキテクチャはトークン当たりのアクティベートパラメータの数を著しく削減することができる。彼らの全体的なパラメータ数とモデルサイズは、リソース制約された設定で広く使用されるのを妨げている。 MELINOE(MelinoE)は、MoEモデルを微調整し、より強く、配列ごとに少数の専門家を活性化する手法である。
論文参考訳（メタデータ） (2026-01-30T14:40:18Z)
ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。 ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文参考訳（メタデータ） (2026-01-29T02:51:59Z)
FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices [0.0]
Mixture-of-Experts (MoE)モデルは、大規模言語モデルを効率的にスケールするために注目を集めている。 MoEモデルは極めて大きく、そのスパースアクティベーションは、一度にモデルのごく一部にアクセスすることで推論を行うことができる。 SSDに非アクティブな専門家をオフロードするシステムであるFlashMoEを提案する。
論文参考訳（メタデータ） (2026-01-22T17:07:33Z)
Remoe: Towards Efficient and Low-Cost MoE Inference in Serverless Computing [29.98726492279776]
Mixture-of-Experts (MoE) は大規模言語モデルにおいて支配的なアーキテクチャとなっている。 MoEsはメモリ集約型パラメータキャッシングによって高い推論コストを発生させる。サーバーレスコンピューティングに適した異種MOE推論システムであるRemoeを提案する。
論文参考訳（メタデータ） (2025-12-21T10:27:50Z)
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。 MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。 VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文参考訳（メタデータ） (2025-12-04T12:56:30Z)
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。 MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。 Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文参考訳（メタデータ） (2025-04-16T23:15:09Z)
Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。 MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文参考訳（メタデータ） (2025-03-20T02:31:57Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文参考訳（メタデータ） (2025-02-07T22:51:17Z)
Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。提案手法は,モデル性能を維持しながら推論遅延を大幅に低減する。実験では、私たちがトレーニングする最大のUltraMemには2000万のメモリスロットがあります。
論文参考訳（メタデータ） (2024-11-19T09:24:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
ProMoE: Fast MoE-based LLM Serving using Proactive Caching [2.041412657843408]
Mixture-of-Experts (MoE)モデルは、計算中にモデルのパラメータのサブセットだけを活性化することでこの問題を軽減する。本稿では,中間モデルを用いた新しいプロアクティブキャッシングシステムProMoEを提案する。評価の結果,ProMoEはプリフィルおよびデコード段階で平均2.13倍,2.84倍のスピードアップを達成した。
論文参考訳（メタデータ） (2024-10-29T15:31:27Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文参考訳（メタデータ） (2024-06-07T14:49:22Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文参考訳（メタデータ） (2023-10-25T17:24:53Z)
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2023-08-28T06:56:08Z)
Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文参考訳（メタデータ） (2023-08-23T11:25:37Z)
Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference [7.743308058511418]
言語モデリング(LM)と機械翻訳(MT)という2つのMoEワークロードの特徴を提供する。本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの最適化手法を提案する。
論文参考訳（メタデータ） (2023-03-10T19:30:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。