論文の概要: MELINOE: Fine-Tuning Enables Memory-Efficient Inference for Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2602.11192v1
- Date: Fri, 30 Jan 2026 14:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.742237
- Title: MELINOE: Fine-Tuning Enables Memory-Efficient Inference for Mixture-of-Experts Models
- Title(参考訳): MELINOE: ミックス・オブ・エクササイズモデルに対するメモリ効率の良い推論を可能にするファインチューニング
- Authors: Arian Raje, Anupam Nayak, Gauri Joshi,
- Abstract要約: Mixture-of-Experts (MoE)モデルアーキテクチャはトークン当たりのアクティベートパラメータの数を著しく削減することができる。
彼らの全体的なパラメータ数とモデルサイズは、リソース制約された設定で広く使用されるのを妨げている。
MELINOE(MelinoE)は、MoEモデルを微調整し、より強く、配列ごとに少数の専門家を活性化する手法である。
- 参考スコア(独自算出の注目度): 13.907916161242794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) model architectures can significantly reduce the number of activated parameters per token, enabling computationally efficient training and inference. However, their large overall parameter counts and model sizes have precluded their widespread usage in resource-constrained settings as all of the parameters must still be loaded into GPU memory. Prior works aim to address this memory bottleneck by offloading certain experts into CPU memory and porting them to GPU memory only when they are activated. In practice, these methods suffer from the significant I/O latency incurred by expert transfer. We present MELINOE, a method that fine-tunes an MoE model to more strongly prefer activating a smaller number of experts per sequence. Caching these preferred experts in GPU memory reduces expert churn and CPU-GPU transfer overhead. MELINOE increases throughput by $1.2-3\times$ over efficient baselines and up to $14.7\times$ over transfer-heavy baselines while retaining or even improving the performance of the model on a downstream task, making it a reliable method for improving MoE inference efficiency.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルアーキテクチャはトークン当たりのアクティベートパラメータの数を著しく削減し、計算的に効率的なトレーニングと推論を可能にする。
しかしながら、パラメータの総数とモデルサイズは、すべてのパラメータをGPUメモリにロードしなければならないため、リソース制約のある設定で広く使用されることは避けられている。
以前の作業は、特定の専門家をCPUメモリにオフロードし、アクティベートされた時にだけGPUメモリに移植することで、このメモリボトルネックに対処することを目的としていた。
実際には、これらの手法は専門家の移動によって生じる重要なI/O遅延に悩まされる。
MELINOE(MelinoE)は、MoEモデルを微調整し、より強く、配列ごとに少数の専門家を活性化する手法である。
これらの推奨する専門家をGPUメモリにキャッシュすることで、専門家の混乱とCPU-GPU転送オーバーヘッドを低減できる。
MELINOEはスループットを効率のよいベースラインで1.2-3\times$14.7\times$ over transfer-heavyベースラインで増加させ、下流タスクでモデルの性能を維持または改善し、MoE推論効率を改善するための信頼性の高い方法である。
関連論文リスト
- Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。
本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。
これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。
我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-07T14:49:22Z) - MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models [15.346491299728463]
MoNDEは、$textithot$のエキスパートだけをGPUに転送することで、MoEパラメータの運動量を削減する。
MoNDEは通信効率のよいMoE推論を可能にし、結果としてかなりのスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-05-29T07:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。