論文の概要: MoE-PHDS: One MoE checkpoint for flexible runtime sparsity
- arxiv url: http://arxiv.org/abs/2509.23012v1
- Date: Sat, 27 Sep 2025 00:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.983777
- Title: MoE-PHDS: One MoE checkpoint for flexible runtime sparsity
- Title(参考訳): MoE-PHDS: フレキシブルなランタイム空間に対するMoEチェックポイント
- Authors: Lauren. A Hannah, Soheil Zibakhsh, Kumari Nishu, Arnav Kundu, Mohammad Samragh Razlighi, Mehrdad Farajtabar, Minsik Cho,
- Abstract要約: Sparse Mixtures of Experts (MoEs) は通常、固定間隔レベルでの操作を訓練される。
プレトレーニングされたMoEは、一般的に想定されるよりも実行時空間変化に対して堅牢であることを示し、MoE-PHDSを導入する。
PHDSは、疎度レベルとアンカーのトレーニングを、高い疎度で短いカリキュラムと混在させ、アーキテクチャの変更を必要としない。
- 参考スコア(独自算出の注目度): 17.857944761361818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixtures of Experts (MoEs) are typically trained to operate at a fixed sparsity level, e.g. $k$ in a top-$k$ gating function. This global sparsity level determines an operating point on the accuracy/latency curve; currently, meeting multiple efficiency targets means training and maintaining multiple models. This practice complicates serving, increases training and maintenance costs, and limits flexibility in meeting diverse latency, efficiency, and energy requirements. We show that pretrained MoEs are more robust to runtime sparsity shifts than commonly assumed, and introduce MoE-PHDS ({\bf P}ost {\bf H}oc {\bf D}eclared {\bf S}parsity), a lightweight SFT method that turns a single checkpoint into a global sparsity control surface. PHDS mixes training across sparsity levels and anchors with a short curriculum at high sparsity, requiring no architectural changes. The result is predictable accuracy/latency tradeoffs from one model: practitioners can ``dial $k$'' at inference time without swapping checkpoints, changing architecture, or relying on token-level heuristics. Experiments on OLMoE-1B-7B-0125, Qwen1.5-MoE-A2.7B, and proprietary models fit on multiple operating points show that PHDS matches or exceeds well-specified oracle models, improves cross-sparsity agreement by up to 22\% vs. well-specified oracle models, and enables simplified, flexible runtime MoE deployment by making global sparsity a first-class serving primitive.
- Abstract(参考訳): Sparse Mixtures of Experts (MoEs) は通常、固定された間隔レベルで操作するように訓練されている。
このグローバル空間レベルは、精度/レイテンシ曲線上の操作点を決定する; 現在、複数の効率目標を満たすことは、複数のモデルのトレーニングと維持を意味する。
このプラクティスは、サービス提供を複雑化し、トレーニングとメンテナンスのコストを増大させ、さまざまなレイテンシ、効率、エネルギー要件を満たす際の柔軟性を制限します。
事前学習したMoEは、一般的に仮定されるよりも実行時スパーシティシフトに対して堅牢であることを示し、単一のチェックポイントをグローバルなスパーシティ制御面に変換する軽量なSFT法であるMoE-PHDS({\bf P}ost {\bf H}oc {\bf D}eclared {\bf S}parsity)を導入する。
PHDSは、疎度レベルとアンカーのトレーニングを、高い疎度で短いカリキュラムと混在させ、アーキテクチャの変更を必要としない。
実践者は、チェックポイントを交換したり、アーキテクチャを変更したり、トークンレベルのヒューリスティックに依存することなく、推論時に ``dial $k$'' を適用できます。
OLMoE-1B-7B-0125、Qwen1.5-MoE-A2.7B、および複数のオペレーティングポイントに適合するプロプライエタリモデルは、PHDSがよく特定されたオラクルモデルと一致するか、または超えることを示す。
関連論文リスト
- MoSE: Mixture of Slimmable Experts for Efficient and Adaptive Language Models [28.87682703032017]
Mixture-of-Experts (MoE)モデルは、専門家をわずかに活性化することで、大きな言語モデルを効率的にスケールするが、専門家が選択されると、完全に実行される。
提案するMoEアーキテクチャであるMixture of Slimmable Experts (MoSE)を提案する。
論文 参考訳(メタデータ) (2026-02-05T19:48:41Z) - Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。
実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。
FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T05:54:59Z) - Sparsity-Controllable Dynamic Top-p MoE for Large Foundation Model Pre-training [30.589225478300023]
DTop-pは空間制御可能な動的Top-pルーティング機構である。
DTop-pはTop-kベースラインとTop-pベースラインの両方を一貫して上回ることを示す。
DTop-pは、専門家の粒度、専門家のキャパシティ、モデルサイズ、データセットサイズに関して、強力なスケーリング特性を示す。
論文 参考訳(メタデータ) (2025-12-16T01:28:57Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks [17.067788440109137]
現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。
記憶能力と推論能力の2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-08-26T04:31:28Z) - From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。
DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。
提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models [21.96960353910023]
3つの新しい手法でタスクスケジューリングを最適化するフレキシブルなトレーニングシステムFSMoEを紹介する。
我々は、2つのGPUクラスタ上で、構成されたMoE層と実世界のMoEモデルで広範な実験を行う。
FSMoEは4種類のMoEルーティング機能をサポートしており、既存の実装よりも効率的である。
論文 参考訳(メタデータ) (2025-01-18T10:14:37Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks [58.075367597860044]
MoEモデルをスクラッチからトレーニングするには、広範なデータと計算資源が必要である。
我々は,MoEモデルに高密度チェックポイントを微調整する有効な方法であるMoE Jetpackを紹介する。
本実験は,MoE Jetpackが収束速度と精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T10:05:42Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Exploring Parameter-Efficient Fine-Tuning to Enable Foundation Models in Federated Learning [12.839398408791778]
フェデレートラーニング(FL)は、ローカルデバイス上の生データに一元的にアクセスすることなく、モデルの協調的なトレーニングを可能にするための、有望なパラダイムとして登場した。
最近の最先端の事前訓練モデルは、より有能になりつつ、より多くのパラメータを持ち、"Foundation Models"として知られている。
FLでこれらの強力で手軽に利用できる事前訓練モデルが、通信負荷を同時に軽減しつつ、優れた性能を達成するためのソリューションを見つけることができるだろうか?
具体的には,FedPEFTの性能を,クライアントの安定性,データ分散,プライバシ設定の違いによって体系的に評価する。
論文 参考訳(メタデータ) (2022-10-04T16:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。