論文の概要: CoSMoEs: Compact Sparse Mixture of Experts
- arxiv url: http://arxiv.org/abs/2503.00245v1
- Date: Fri, 28 Feb 2025 23:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:36.578773
- Title: CoSMoEs: Compact Sparse Mixture of Experts
- Title(参考訳): CoSMoEs: エキスパートの小さなスパースミックス
- Authors: Patrick Huber, Akshat Shrivastava, Ernie Chang, Chinnadhurai Sankar, Ahmed Aly, Adithya Sagar,
- Abstract要約: オンデバイス推論において,CoSMoE(Compact Sparse Mixture of Experts)を有効にする方法を示す。
特に、品質、メモリ、レイテンシの3つの主要なオンデバイスディメンションに取り組みます。
重量分解の専門家を導入し、MoEモデルの性能をさらに改善する。
- 参考スコア(独自算出の注目度): 14.576482330940262
- License:
- Abstract: Sparse Mixture of Expert (MoE) models are popular foundational architectures at large scale, however, under-explored at smaller sizes. Here, we show how to enable Compact Sparse Mixture of Experts (CoSMoEs) for on-device inference. Specifically, we tackle the three main on-device dimensions: Quality, Memory and Latency. Along the quality axis, we show that in a fair evaluation (removing confounding factors) MoE architectures outperform FLOP-aligned dense models at on-device scale. We introduce weight-decomposed experts, further improving the MoE model performance. Regarding model memory and latency, we significantly improve model offloading efficiency and, in turn, reduce model inference latency.
- Abstract(参考訳): スパース・ミクチャー・オブ・エキスパート(MoE)モデルは大規模な基盤アーキテクチャとして人気があるが、小規模では未探索である。
ここでは、デバイス上での推論に対して、CoSMoE(Compact Sparse Mixture of Experts)を有効にする方法を示す。
具体的には、品質、メモリ、レイテンシの3つの主要なオンデバイスディメンションに取り組みます。
品質軸に沿って,MoEアーキテクチャはデバイス上のスケールでFLOP整列密度モデルより優れていることを示す。
重量分解の専門家を導入し、MoEモデルの性能をさらに改善する。
モデルメモリと遅延に関して、モデルオフロード効率を大幅に改善し、モデル推論レイテンシを低減する。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。
コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。
LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文 参考訳(メタデータ) (2024-03-29T21:32:50Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit
Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。
MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。
低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文 参考訳(メタデータ) (2023-10-03T20:11:23Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。