Fugu-MT 論文翻訳(概要): CoSMoEs: Compact Sparse Mixture of Experts

論文の概要: CoSMoEs: Compact Sparse Mixture of Experts

arxiv url: http://arxiv.org/abs/2503.00245v1
Date: Fri, 28 Feb 2025 23:25:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.29443
Title: CoSMoEs: Compact Sparse Mixture of Experts
Title（参考訳）: CoSMoEs: エキスパートの小さなスパースミックス
Authors: Patrick Huber, Akshat Shrivastava, Ernie Chang, Chinnadhurai Sankar, Ahmed Aly, Adithya Sagar,
Abstract要約: オンデバイス推論において,CoSMoE(Compact Sparse Mixture of Experts)を有効にする方法を示す。特に、品質、メモリ、レイテンシの3つの主要なオンデバイスディメンションに取り組みます。重量分解の専門家を導入し、MoEモデルの性能をさらに改善する。
参考スコア（独自算出の注目度）: 14.576482330940262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Mixture of Expert (MoE) models are popular foundational architectures at large scale, however, under-explored at smaller sizes. Here, we show how to enable Compact Sparse Mixture of Experts (CoSMoEs) for on-device inference. Specifically, we tackle the three main on-device dimensions: Quality, Memory and Latency. Along the quality axis, we show that in a fair evaluation (removing confounding factors) MoE architectures outperform FLOP-aligned dense models at on-device scale. We introduce weight-decomposed experts, further improving the MoE model performance. Regarding model memory and latency, we significantly improve model offloading efficiency and, in turn, reduce model inference latency.
Abstract（参考訳）: スパース・ミクチャー・オブ・エキスパート(MoE)モデルは大規模な基盤アーキテクチャとして人気があるが、小規模では未探索である。ここでは、デバイス上での推論に対して、CoSMoE(Compact Sparse Mixture of Experts)を有効にする方法を示す。具体的には、品質、メモリ、レイテンシの3つの主要なオンデバイスディメンションに取り組みます。品質軸に沿って,MoEアーキテクチャはデバイス上のスケールでFLOP整列密度モデルより優れていることを示す。重量分解の専門家を導入し、MoEモデルの性能をさらに改善する。モデルメモリと遅延に関して、モデルオフロード効率を大幅に改善し、モデル推論レイテンシを低減する。

関連論文リスト

SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文参考訳（メタデータ） (2025-06-23T07:15:59Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems [26.493762260392284]
MoE-CAPはスパースMoEシステムを評価するためのベンチマーク手法である。主なイノベーションは、コスト、パフォーマンス、精度のメトリクスを単一のダイアグラムに統合した、疎結合対応のCAP分析モデルである。
論文参考訳（メタデータ） (2024-12-10T00:19:28Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。 LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文参考訳（メタデータ） (2024-03-29T21:32:50Z)
Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。 MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文参考訳（メタデータ） (2023-10-03T20:11:23Z)
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。 GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文参考訳（メタデータ） (2022-03-02T13:44:49Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。