論文の概要: MoE-PHDS: One MoE checkpoint for flexible runtime sparsity
- arxiv url: http://arxiv.org/abs/2509.23012v1
- Date: Sat, 27 Sep 2025 00:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.983777
- Title: MoE-PHDS: One MoE checkpoint for flexible runtime sparsity
- Title(参考訳): MoE-PHDS: フレキシブルなランタイム空間に対するMoEチェックポイント
- Authors: Lauren. A Hannah, Soheil Zibakhsh, Kumari Nishu, Arnav Kundu, Mohammad Samragh Razlighi, Mehrdad Farajtabar, Minsik Cho,
- Abstract要約: Sparse Mixtures of Experts (MoEs) は通常、固定間隔レベルでの操作を訓練される。
プレトレーニングされたMoEは、一般的に想定されるよりも実行時空間変化に対して堅牢であることを示し、MoE-PHDSを導入する。
PHDSは、疎度レベルとアンカーのトレーニングを、高い疎度で短いカリキュラムと混在させ、アーキテクチャの変更を必要としない。
- 参考スコア(独自算出の注目度): 17.857944761361818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixtures of Experts (MoEs) are typically trained to operate at a fixed sparsity level, e.g. $k$ in a top-$k$ gating function. This global sparsity level determines an operating point on the accuracy/latency curve; currently, meeting multiple efficiency targets means training and maintaining multiple models. This practice complicates serving, increases training and maintenance costs, and limits flexibility in meeting diverse latency, efficiency, and energy requirements. We show that pretrained MoEs are more robust to runtime sparsity shifts than commonly assumed, and introduce MoE-PHDS ({\bf P}ost {\bf H}oc {\bf D}eclared {\bf S}parsity), a lightweight SFT method that turns a single checkpoint into a global sparsity control surface. PHDS mixes training across sparsity levels and anchors with a short curriculum at high sparsity, requiring no architectural changes. The result is predictable accuracy/latency tradeoffs from one model: practitioners can ``dial $k$'' at inference time without swapping checkpoints, changing architecture, or relying on token-level heuristics. Experiments on OLMoE-1B-7B-0125, Qwen1.5-MoE-A2.7B, and proprietary models fit on multiple operating points show that PHDS matches or exceeds well-specified oracle models, improves cross-sparsity agreement by up to 22\% vs. well-specified oracle models, and enables simplified, flexible runtime MoE deployment by making global sparsity a first-class serving primitive.
- Abstract(参考訳): Sparse Mixtures of Experts (MoEs) は通常、固定された間隔レベルで操作するように訓練されている。
このグローバル空間レベルは、精度/レイテンシ曲線上の操作点を決定する; 現在、複数の効率目標を満たすことは、複数のモデルのトレーニングと維持を意味する。
このプラクティスは、サービス提供を複雑化し、トレーニングとメンテナンスのコストを増大させ、さまざまなレイテンシ、効率、エネルギー要件を満たす際の柔軟性を制限します。
事前学習したMoEは、一般的に仮定されるよりも実行時スパーシティシフトに対して堅牢であることを示し、単一のチェックポイントをグローバルなスパーシティ制御面に変換する軽量なSFT法であるMoE-PHDS({\bf P}ost {\bf H}oc {\bf D}eclared {\bf S}parsity)を導入する。
PHDSは、疎度レベルとアンカーのトレーニングを、高い疎度で短いカリキュラムと混在させ、アーキテクチャの変更を必要としない。
実践者は、チェックポイントを交換したり、アーキテクチャを変更したり、トークンレベルのヒューリスティックに依存することなく、推論時に ``dial $k$'' を適用できます。
OLMoE-1B-7B-0125、Qwen1.5-MoE-A2.7B、および複数のオペレーティングポイントに適合するプロプライエタリモデルは、PHDSがよく特定されたオラクルモデルと一致するか、または超えることを示す。
関連論文リスト
- Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks [17.067788440109137]
現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。
記憶能力と推論能力の2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-08-26T04:31:28Z) - From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。
DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。
提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models [21.96960353910023]
3つの新しい手法でタスクスケジューリングを最適化するフレキシブルなトレーニングシステムFSMoEを紹介する。
我々は、2つのGPUクラスタ上で、構成されたMoE層と実世界のMoEモデルで広範な実験を行う。
FSMoEは4種類のMoEルーティング機能をサポートしており、既存の実装よりも効率的である。
論文 参考訳(メタデータ) (2025-01-18T10:14:37Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks [58.075367597860044]
MoEモデルをスクラッチからトレーニングするには、広範なデータと計算資源が必要である。
我々は,MoEモデルに高密度チェックポイントを微調整する有効な方法であるMoE Jetpackを紹介する。
本実験は,MoE Jetpackが収束速度と精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T10:05:42Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Exploring Parameter-Efficient Fine-Tuning to Enable Foundation Models in Federated Learning [12.839398408791778]
フェデレートラーニング(FL)は、ローカルデバイス上の生データに一元的にアクセスすることなく、モデルの協調的なトレーニングを可能にするための、有望なパラダイムとして登場した。
最近の最先端の事前訓練モデルは、より有能になりつつ、より多くのパラメータを持ち、"Foundation Models"として知られている。
FLでこれらの強力で手軽に利用できる事前訓練モデルが、通信負荷を同時に軽減しつつ、優れた性能を達成するためのソリューションを見つけることができるだろうか?
具体的には,FedPEFTの性能を,クライアントの安定性,データ分散,プライバシ設定の違いによって体系的に評価する。
論文 参考訳(メタデータ) (2022-10-04T16:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。