論文の概要: DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices
- arxiv url: http://arxiv.org/abs/2605.10933v2
- Date: Tue, 12 May 2026 13:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.210582
- Title: DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices
- Title(参考訳): DECO:Dense-Comparable Performance on End-Side Devices によるSparse Mixture-of-Experts
- Authors: Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Zhiyuan Liu,
- Abstract要約: DECOは、同一のパラメータ予算とトレーニングトークンの下での高密度トランスフォーマーのパフォーマンスに適合するように設計された、疎いMoEアーキテクチャである。
我々の特別なアクセラレーションカーネルは、高密度の推論と比較して、実際のハードウェア上で3.00$times$のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 27.533004971063175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Mixture-of-Experts (MoE) scales model capacity without proportionally increasing computation, its massive total parameter footprint creates significant storage and memory-access bottlenecks, which hinder efficient end-side deployment that simultaneously requires high performance, low computational cost, and small storage overhead. To achieve these properties, we present DECO, a sparse MoE architecture designed to match the performance of dense Transformers under identical total parameter budgets and training tokens. DECO utilizes the differentiable and flexible ReLU-based routing enhanced by learnable expert-wise scaling, which adaptively balances the contributions of routed and shared experts. Furthermore, we introduce NormSiLU, an activation function that normalizes inputs prior to SiLU operators, producing a more stable trend of routed-expert activation ratio and a higher intrinsic sparsity level. We also identify an empirical advantage in using non-gated MLP experts with ReLU-based routing, indicating the possibility of MoE architecture simplification. Experiments demonstrate that DECO, activating only 20% of experts, matches dense performance and outperforms established MoE baselines. Our specialized acceleration kernel delivers a 3.00$\times$ speedup on real hardware compared with dense inference. Codes and checkpoints are all available at https://github.com/thunlp/DECO.
- Abstract(参考訳): Mixture-of-Experts (MoE)は比例的に計算量を増やすことなくモデルキャパシティをスケールするが、その総パラメータフットプリントは大きなストレージとメモリアクセスボトルネックを生じさせ、高いパフォーマンス、低い計算コスト、少ないストレージオーバーヘッドを同時に要求する効率的なエンドサイドデプロイメントを妨げる。
これらの特性を達成するため、DECは、同一のパラメータ予算とトレーニングトークンの下での高密度トランスフォーマーの性能に適合するように設計されたスパースMOEアーキテクチャである。
DECOは、学習可能な専門家レベルのスケーリングによって強化された、微分可能で柔軟なReLUベースのルーティングを活用し、ルーティングされた専門家と共有された専門家の貢献を適応的にバランスさせる。
さらに、SiLU演算子に先立って入力を正規化する活性化関数であるNormSiLUを導入する。
また,ReLUをベースとしたルーティングを用いた非ゲート型MLPエキスパートを用いた場合,MoEアーキテクチャの単純化の可能性を示す実証的な優位性も確認した。
実験では、専門家の20%しかアクティベートしていないDECOが、密度の高いパフォーマンスと、MoEベースラインの確立したパフォーマンスに適合していることが示されている。
我々の特別なアクセラレーションカーネルは、高密度の推論と比較して、実際のハードウェア上で3.00$\times$のスピードアップを提供します。
コードとチェックポイントはすべてhttps://github.com/thunlp/DECO.comで公開されている。
関連論文リスト
- Algorithm and Hardware Co-Design for Efficient Complex-Valued Uncertainty Estimation [10.567064384827196]
複素値ニューラルネットワーク(CVNN)は、複素数を含むタスクの処理において利点がある。
既存のCVNNは予測の不確実性を定量化できない。
本研究では,ベイズCVNN(BayesCVNN)を用いて,不確実な定量化を実現する手法を提案する。
論文 参考訳(メタデータ) (2026-04-21T21:06:00Z) - Ge$^\text{2}$mS-T: Multi-Dimensional Grouping for Ultra-High Energy Efficiency in Spiking Transformer [84.8831358775386]
スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)よりも優れたエネルギー効率を提供する
ANN-SNN ConversionやSpatial-Temporal Backpropagation (STBP)といった既存のパラダイムは、固有の制限に悩まされている。
Ge$text2$mS-Tを提案する。これは時間的・空間的・ネットワーク的構造次元にまたがるグループ計算を実装した新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-10T02:58:46Z) - AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios [12.409831039709886]
Mixture-of-Experts (MoE)モデルはスケーラブルなパフォーマンスを実現するが、エッジデバイスでは厳しいメモリ制約に直面している。
我々は、専門家の要求を追跡するために、投機的ユーティリティエスタを統合するMoE推論フレームワークであるMoE-SpAcを紹介する。
7つのベンチマーク実験により、MoE-SpAcはSOTA SDベースラインよりもTPSが42%向上していることが示された。
論文 参考訳(メタデータ) (2026-02-12T04:28:00Z) - SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models [19.56443760368644]
類似性に基づくSERE(Expert Re-routing method for Efficient batch decoding in MoE model)を提案する。
SEREは、セカンダリエキスパートから最もよく似たプライマリエキスパートにトークンを再ルートすることで、アクティブエキスパートの数を動的に削減する。
SEREは、最小品質の損失で最大2.0倍のスピードアップを実現し、コスト効率とレイテンシに敏感な大規模なMoEデプロイメントのための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-07T16:51:16Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。