論文の概要: FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach
- arxiv url: http://arxiv.org/abs/2603.13364v1
- Date: Mon, 09 Mar 2026 12:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.78919
- Title: FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach
- Title(参考訳): FineRMoE: ファイナグラインドエキスパートのためのアップサイクリングアプローチ
- Authors: Ning Liao, Xiaoxing Wang, Xiaohan Qin, Junchi Yan,
- Abstract要約: FineRMoEは、細粒度の専門家設計を中間次元と出力次元の両方に拡張するアーキテクチャである。
パラメータ効率の6倍、プリフィルレイテンシの281倍、推論時の復号スループットの136倍を実現している。
- 参考スコア(独自算出の注目度): 58.345210583013454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.
- Abstract(参考訳): 細粒度MoEのスケーリング法則によって明らかにされるように、中間次元の粒度が最適しきい値を超えるとモデル性能は改善されなくなり、単一寸法の細粒度設計によるさらなる利得が制限される。
このボトルネックに対処するため,FineRMoE (FineR-Grained MoE) を提案する。
さらに、二段階のスパースフォワード計算パラダイムと、アクティベーションを管理するための特別なルーティング機構を導入する。
また,ファインRMoEをスクラッチからトレーニングすることの禁止コストを回避するため,ファインRMoEをコスト効率よく構築するための一般化したアップサイクリング手法を考案した。
大規模な実験は、FinRMoEが10の標準ベンチマークで達成した優れた性能を示している。
最強のベースラインと比較して、FinRMoEはパラメータ効率の6倍、プリフィル遅延の281倍、推論時のデコードスループットの136倍を達成する。
関連論文リスト
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - Benchmarking Generative AI Against Bayesian Optimization for Constrained Multi-Objective Inverse Design [0.15293427903448018]
本稿では,制約付き多目的回帰タスクを解くための生成可能な言語モデル(LLM)の性能について検討する。
最高の性能のLDM(Math-7B)は1.21の世代距離(GD)を達成した。
この知見は, 樹脂, レオロジー, 化学特性の定式化設計の最適化に, 直接工業的応用が期待できる。
論文 参考訳(メタデータ) (2025-10-29T10:37:09Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Optimal Scaling Laws for Efficiency Gains in a Theoretical Transformer-Augmented Sectional MoE Framework [0.0]
本稿では,Transformer-augmented, sectional Mixture-of-Expertsアーキテクチャの理論的枠組みを紹介する。
当社のアプローチでは,それぞれのトークン表現のセグメントを専用の専門家に割り当てる,埋め込みディメンション自体を分割しています。
我々は、専門家の数とモデル次元、シーケンス長、システムオーバーヘッドなどの要因の間の非線形関係が最適スケーリング法則を導出することにより、我々の理論を拡張した。
論文 参考訳(メタデータ) (2025-03-26T17:33:38Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。
言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文 参考訳(メタデータ) (2024-07-04T20:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。