論文の概要: Dense2MoE: Pushing the Pareto Frontier of On-Device LLMs via Unified Pruning and Upcycling
- arxiv url: http://arxiv.org/abs/2605.26496v1
- Date: Tue, 26 May 2026 03:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.599256
- Title: Dense2MoE: Pushing the Pareto Frontier of On-Device LLMs via Unified Pruning and Upcycling
- Title(参考訳): Dense2MoE: 統一プルーニングとアップサイクリングによるオンデバイスLDMのパレートフロンティアの推進
- Authors: Fengfa Li, Hongjin Ji, Yifeng Ding, Lei Ren, Chen Wei,
- Abstract要約: Mixture of Experts MoEアーキテクチャは、デバイスデプロイメントに制約のあるリソースに対して非常に有望だが、これらのモデルをスクラッチからトレーニングすることは禁忌なコストである。
現在の手法では、密度の高いモデルをMoEにアップサイクルすることでこれを緩和しようとするが、しばしばパラメータの冗長性を導入し、推論効率を低下させる。
- 参考スコア(独自算出の注目度): 10.009897539610646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts MoE architecture is highly promising for resource constrained on device deployments yet training these models from scratch incurs prohibitive costs Current methods attempt to alleviate this by upcycling dense models into MoEs however they often introduce parameter redundancy that degrades inference efficiency Alternatively standard layer pruning mitigates redundancy but inevitably compromises model accuracy To resolve this dilemma we propose Dense2MoE a novel framework that unifies pruning and upcycling through Layer Fusion UpCycling LF UC Guided by hardware Roofline theory Dense2MoE systematically overcomes the inference memory wall by pruning bandwidth heavy attention modules from redundant layers while repurposing their Multi Layer Perceptrons MLPs into MoE experts This structural innovation preserves the models core capabilities and strictly limits active parameters via selective token routing With a modest continual pre training budget Dense2MoE efficiently converts publicly available dense LLMs into on device ready MoE models Extensive experiments demonstrate that Dense2MoE significantly advances the Pareto frontier for on device inference latency versus model accuracy outperforming dense baselines state of the art compression and standard upcycling methods
- Abstract(参考訳): 専門家の混成 MoEアーキテクチャは、デバイス配置に制約があるが、スクラッチのインキュラティブコストからこれらのモデルをトレーニングする 現行の手法では、密集したモデルをMoEにアップサイクルすることで、これを緩和しようとするが、しばしば、推論効率を低下させるパラメータ冗長性を導入する オルタナティブな標準層 プルーニングは、冗長性を緩和するが、モデル精度を必然的に妥協する このジレンマを解決するために、Dense2MoEを提案する。
関連論文リスト
- Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe [51.26601054313749]
Diffusion MoEモデルに対する最近の取り組みは、主により洗練されたルーティングメカニズムの開発に焦点を当てている。
大規模言語モデル(LLM)で確立されたMoE設計パラダイムに着想を得て,効率的な拡散MoEモデルを構築する上で重要なアーキテクチャ要素のセットを特定する。
本稿では,潜在空間拡散フレームワークと画素空間拡散フレームワークの両方に効率よく適用可能な新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-01T03:52:31Z) - MoE-Prism: Disentangling Monolithic Experts for Elastic MoE Services via Model-System Co-Designs [17.827406818899536]
MoE-Prismは、厳格なMoEモデルをエラスティックサービスに変換するモデルシステムの共同設計である。
評価の結果,MoE-Prismprovides はベースラインの4倍以上,安定な動作点であることがわかった。
これにより、厳格な予算で最大19.9%のスループットを動的に改善したり、限られたリソースで最大10.36%のレイテンシを削減できる。
論文 参考訳(メタデータ) (2025-10-22T08:40:01Z) - Minitron-SSM: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [76.88243649182886]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning [19.038272193170297]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。
S'MoREは、残余のサブツリーを通して入力トークンをルーティングすることで、少数の低ランク行列をインスタンス化し組み立てることで、多くの専門家の能力をエミュレートする。
論文 参考訳(メタデータ) (2025-04-08T20:54:00Z) - Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling [3.529891364583952]
MoE(Mixture of Experts)は、現代のトランスフォーマーベースのLLM(Large Language Models)を前例のない規模に拡張可能なニューラルネットワークとして普及している。
最先端のMoE推論フレームワークであるDeepSpeed-MoEは、EP(Expert Parallelism)、TP(Tensor Parallel)、DP(Data Parallelism)を含む3D並列パラダイムを採用している。
本研究の目的は,EPの通信オーバヘッドをSpeculative MoEという技術で戦略的に削減し,DeepSpeed-MoEを向上することである。
論文 参考訳(メタデータ) (2025-03-06T12:52:22Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。