論文の概要: FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2505.20225v1
- Date: Mon, 26 May 2025 17:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:27.031605
- Title: FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
- Title(参考訳): FLAME-MoE:Mixture-of-Experts言語モデルのための透明なエンドツーエンドリサーチプラットフォーム
- Authors: Hao Kang, Zichun Yu, Chenyan Xiong,
- Abstract要約: FLAME-MoEは7つのデコーダのみのモデルからなる完全にオープンソースな研究スイートである。
FLAME-MoEは、同一のFLOPで訓練された密度の高いベースラインよりも平均精度を最大3.4ポイント向上させる。
- 参考スコア(独自算出の注目度): 19.984973014373118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.
- Abstract(参考訳): Gemini-1.5、DeepSeek-V3、Llama-4といった最近の大規模言語モデルはMixture-of-Experts (MoE)アーキテクチャを採用しており、1トークンあたりのモデルのごく一部をアクティベートすることで、強力な効率とパフォーマンスのトレードオフを提供する。
しかし学術研究者は、スケーリング、ルーティング、専門家の振る舞いを調べるための、完全にオープンでエンドツーエンドのMoEプラットフォームをまだ持っていない。
FLAME-MoEは、38Mから1.7Bのアクティブパラメータを含む7つのデコーダのみのモデルで構成された、完全にオープンソースな研究スイートである。
すべてのトレーニングデータパイプライン、スクリプト、ログ、チェックポイントは、再現可能な実験を可能にするために公開されている。
6つの評価タスクでFLAME-MoEは、同一のFLOPで訓練された密度の高いベースラインよりも平均精度を最大3.4ポイント向上させる。
フルトレーニングトレース透過性を活用して、最初の分析結果を示す。
(i)異なるトークンサブセットを専門とする専門家が増えている。
(二)多種多様な専門家の使用を反映して、共同活性化行列は疎いままである。
三 訓練の早い段階で経路行動が安定する。
すべてのコード、トレーニングログ、モデルチェックポイントはhttps://github.com/cmu-flame/FLAME-MoE.comで入手できる。
関連論文リスト
- Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [5.585222292493927]
提案するUnion-of-Experts(UoE)は,変圧器を等価な専門家グループに分解し,入力データとエキスパートを選択的にルーティングする。
実験により、UoEモデルはフルアテンション、最先端のMoE、効率的なトランスフォーマーを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-04T11:01:25Z) - LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models [7.164238322896674]
emphLibMoEは、MoEアルゴリズムの研究、トレーニング、評価を効率化する包括的なフレームワークである。
LibMoEは、トレーニングと評価パイプラインの標準化によって、大規模な言語モデル(LLM)にMoEを提供する。
論文 参考訳(メタデータ) (2024-11-01T14:04:36Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (2024-07-31T17:46:51Z) - FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。
現在、FedLLMの現実的なデータセットやベンチマークは存在しない。
我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-07T11:19:30Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。