論文の概要: FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models
- arxiv url: http://arxiv.org/abs/2602.08818v1
- Date: Mon, 09 Feb 2026 15:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.338388
- Title: FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models
- Title(参考訳): FlexMoRE: 効果的に訓練された大規模言語モデルのためのランク不均一なエキスパートの柔軟な混合
- Authors: Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp,
- Abstract要約: ランク・ヘテロジニアスの専門家によるフレキシブルな混合であるFlexMoREを紹介します。
推論量の多いベンチマークでは、知識量の多いベンチマークよりも、最高のパフォーマンスのランクがかなり高いことを示す。
- 参考スコア(独自算出の注目度): 3.852094291611636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating $6$ experts with ranks $2^0$ to $2^{14}$ resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across $120$ tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score $47.18$) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score $45.46$) at less than one third the parameters ($10.75$B for FlexMoRE vs. $33.27$B for FlexOlmo). All code will be made available.
- Abstract(参考訳): 近年のミックス・オブ・エキスパート・アーキテクチャの進歩は、個々の専門家モデルが、協調を容易にするために共通のベースモデルを使用することで、他の専門家と独立して連携して訓練できることを示してきた。
しかし、フルサイズのエキスパートはすべてのドメインに必要ではないかもしれないし、代わりに低ランクのアダプタが十分かもしれないと仮定する。
ここでは、FlexMoREを紹介します。FlexMoREは、フルサイズのエキスパートか、適切なランクのアダプタのどちらかかもしれません。
我々は,150種類の混合(96名,2名,54名,7名)を120ドルのタスクで評価する実験を行い,専門家のランクとダウンストリームのタスクパフォーマンスのトレードオフを系統的に検討した。
実験のために、FlexOlmoの上に構築し、トレーニング済みのエキスパートを低ランクバージョンに変換しました。
専門家のランクからダウンストリームのタスクパフォーマンスへの回帰分析により、推論量の多いベンチマークでは、知識量の多いベンチマークよりも、最高のパフォーマンスのランクがかなり高いことが判明した。
最適なランクを使用すると、FlexMoREはダウンストリームタスクのパフォーマンス(平均スコア47.18ドル)を改善し、FlexOlmoスタイルのフルサイズのエキスパート(平均スコア45.46ドル)を1/3以下のパラメータ(FlexMoREでは10.75ドルB、FlexOlmoでは33.27ドルB)と比較する。
すべてのコードは利用可能になります。
関連論文リスト
- $\infty$-MoE: Generalizing Mixture of Experts to Infinite Experts [43.075289015406355]
Mixture of Experts (MoE)はトークンごとにいくつかのフィードフォワードネットワーク(FFN)を選択し、計算コストとパフォーマンスの効果的なトレードオフを実現する。
トークン毎にサンプリングされた連続値に基づいて,大きなFFNのパラメータの一部を選択可能な$infty$-MoEを提案する。
GPT-2 Small-based $infty$-MoE model, with 19M active and 186M total parameters, is a comparable performance to a dense GPT-2 Medium with 350M parameters。
論文 参考訳(メタデータ) (2026-01-25T03:55:51Z) - Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts [43.63398524449102]
Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入しました。
論文 参考訳(メタデータ) (2025-09-26T05:29:19Z) - Sub-MoE: Efficient Mixture-of-Expert LLMs Compression via Subspace Expert Merging [17.490596264046435]
Sub-MoE は Subspace Expert Merging による新しい MoE 圧縮フレームワークである。
我々の重要な洞察は、専門家の重み付けでSingular Value Decomposition(SVD)を共同で行うことです。
当社のSub-MoEは、既存のエキスパートプルーニングやマージ方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-06-29T14:43:50Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models [26.447210565680116]
本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。
1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
論文 参考訳(メタデータ) (2024-01-11T17:31:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。