論文の概要: MoE-DisCo:Low Economy Cost Training Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2601.06857v1
- Date: Sun, 11 Jan 2026 10:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.033013
- Title: MoE-DisCo:Low Economy Cost Training Mixture-of-Experts Models
- Title(参考訳): MoE-DisCo:Low Economic Cost Training Mixture-of-Experts Models
- Authors: Xin Ye, Daning Cheng, Boyang Zhang, Yunquan Zhang,
- Abstract要約: 大規模なMixture-of-Experts(MoE)モデルのトレーニングには、高メモリで高帯域幅のGPU(例:A100)が必要である。
MoE-DisCoは、MoEモデルを複数の密集したサブモデルに分解し、それぞれが共有バックボーンと単一のエキスパートで構成され、トレーニングデータを教師なしクラスタリングを使用してサブセットに分割する。
- 参考スコア(独自算出の注目度): 6.372179935695467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large-scale Mixture-of-Experts (MoE) models typically requires high-memory, high-bandwidth GPUs (e.g., A100), and their high cost has become a major barrier to large-model training. In contrast, affordable hardware is low-cost but constrained by memory capacity and bandwidth, making it unsuitable for direct LLM training. To address this, we propose MoE-DisCo (Mixture-of-Experts with Disentangled Clustering and Coordination), a staged training framework. MoE-DisCo decomposes the MoE model into multiple dense submodels, each consisting of a shared backbone and a single expert, and partitions the training data into subsets using unsupervised clustering. Each submodel is trained independently and in parallel on its assigned data subset using low-cost devices, without any inter-device communication. Subsequently, all experts are integrated into a complete MoE model and fine-tuned globally for a short period on high-memory, high-bandwidth GPUs. Experiments show that our method matches or even surpasses full-parameter training in performance across multiple downstream tasks, loss function, and perplexity (PPL), while reducing training cost by 47.6 percent to 69.5 percent on Qwen1.5-MoE-2.7B and Llama-MoE-3.5B across different datasets.
- Abstract(参考訳): 大規模なMixture-of-Experts(MoE)モデルのトレーニングは通常、高メモリで高帯域幅のGPU(例えばA100)を必要とする。
対照的に、安価なハードウェアは低コストであるが、メモリ容量と帯域幅に制約があるため、直接LLMトレーニングには適さない。
そこで我々は,段階的なトレーニングフレームワークであるMoE-DisCo(Disentangled Clustering and Coordinationを用いたMixture-of-Experts)を提案する。
MoE-DisCoは、MoEモデルを複数の密集したサブモデルに分解し、それぞれが共有バックボーンと単一のエキスパートで構成され、トレーニングデータを教師なしクラスタリングを使用してサブセットに分割する。
各サブモデルは、デバイス間通信なしで、低コストのデバイスを使用して、割り当てられたデータサブセットに対して、独立して、並列に訓練される。
その後、すべての専門家が完全なMoEモデルに統合され、高メモリで高帯域幅のGPU上で短時間、世界中で微調整される。
実験の結果、我々の手法は、複数の下流タスク、損失関数、パープレキシティ(PPL)にわたるパフォーマンスのフルパラメータトレーニングに適合し、また異なるデータセットにわたるQwen1.5-MoE-2.7BとLlama-MoE-3.5Bで、トレーニングコストを47.6%から69.5%削減した。
関連論文リスト
- Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs [80.72350166388601]
Nemotron Elasticは推論指向のLLMを構築するためのフレームワークである。
ネストしたサブモデルを単一の親モデルに組み込む。
これらのサブモデルはそれぞれ、親モデルと重みを共有し、デプロイ中にゼロショットを抽出できる。
論文 参考訳(メタデータ) (2025-11-20T18:59:21Z) - PC-MoE: Memory-Efficient and Privacy-Preserving Collaborative Training for Mixture-of-Experts LLMs [56.04036826558497]
プライバシー保護型コラボレーション・オブ・エクササイズ(PC-MoE)を紹介する。
設計上、PC-MoEは分散計算の強みと強い機密性の保証を相乗的に組み合わせている。
完全に集中したモデルのパフォーマンスと収束率とほぼ一致(時には超える)し、70%近いピークのGPURAMの削減を享受し、再構築攻撃に対して完全に堅牢である。
論文 参考訳(メタデータ) (2025-06-03T15:00:18Z) - Exploiting Block Coordinate Descent for Cost-Effective LLM Model Training [10.794896407061076]
ブロック降下座標(BCD)に基づく事前学習・微調整フレームワークを提案する。
同じハードウェア構成で、7BモデルのトレーニングコストをA100/800Aクラスタ上で33%に削減する。
論文 参考訳(メタデータ) (2025-05-23T03:05:54Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - 2 OLMo 2 Furious [154.15728448754854]
我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。
OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。
修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - No Need to Talk: Asynchronous Mixture of Language Models [25.3581396758015]
Smalltalk LMは、ほぼ非同期な方法で言語モデルの混合を訓練するための革新的な方法である。
推測では、短いプレフィックスによると、軽量ルータが与えられたシーケンスを単一の専門家に指示する。
言語モデリング実験により、SMALLTALK LMは高密度モデルベースラインよりも非常に低いパープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2024-10-04T15:50:10Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。