論文の概要: Samoyeds: Accelerating MoE Models with Structured Sparsity Leveraging Sparse Tensor Cores
- arxiv url: http://arxiv.org/abs/2503.10725v1
- Date: Thu, 13 Mar 2025 10:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:21.623648
- Title: Samoyeds: Accelerating MoE Models with Structured Sparsity Leveraging Sparse Tensor Cores
- Title(参考訳): Samoyeds: スパーステンソルコアを活用した構造化スペーサモデルによるMoEモデルの高速化
- Authors: Chenpeng Wu, Qiqi Gu, Heng Shi, Jianguo Yao, Haibing Guan,
- Abstract要約: 本稿ではスパースコア(SpTC)を利用したMOE LLMの革新的加速システムであるSamoyedsについて述べる。
また、MoE計算に適したスパースデータフォーマットを導入し、特別なスパーススパース行列乗算カーネルを開発する。
評価によると、SOTAはカーネルレベルでは1.99$times$、モデルレベルでは1.58$times$より優れている。
- 参考スコア(独自算出の注目度): 13.089178890203652
- License:
- Abstract: The escalating size of Mixture-of-Experts (MoE) based Large Language Models (LLMs) presents significant computational and memory challenges, necessitating innovative solutions to enhance efficiency without compromising model accuracy. Structured sparsity emerges as a compelling strategy to address these challenges by leveraging the emerging sparse computing hardware. Prior works mainly focus on the sparsity in model parameters, neglecting the inherent sparse patterns in activations. This oversight can lead to additional computational costs associated with activations, potentially resulting in suboptimal performance. This paper presents Samoyeds, an innovative acceleration system for MoE LLMs utilizing Sparse Tensor Cores (SpTCs). Samoyeds is the first to apply sparsity simultaneously to both activations and model parameters. It introduces a bespoke sparse data format tailored for MoE computation and develops a specialized sparse-sparse matrix multiplication kernel. Furthermore, Samoyeds incorporates systematic optimizations specifically designed for the execution of dual-side structured sparse MoE LLMs on SpTCs, further enhancing system performance. Evaluations show that Samoyeds outperforms SOTA works by up to 1.99$\times$ at the kernel level and 1.58$\times$ at the model level. Moreover, it enhances memory efficiency, increasing maximum supported batch sizes by 4.41$\times$ on average. Additionally, Samoyeds surpasses existing SOTA structured sparse solutions in both model accuracy and hardware portability.
- Abstract(参考訳): Mixture-of-Experts (MoE) ベースのLarge Language Models (LLMs) のエスカレートサイズは、計算と記憶に重大な課題をもたらし、モデルの精度を損なうことなく効率を向上させる革新的なソリューションを必要としている。
構造化空間性は、新興のスパースコンピューティングハードウェアを活用することで、これらの課題に対処するための魅力的な戦略として現れます。
以前の研究は主にモデルパラメータのスパース性に注目し、アクティベーションにおける固有のスパースパターンを無視した。
この監視は、アクティベーションに関連する計算コストを増大させ、潜在的に最適以下の性能をもたらす可能性がある。
本稿では,Sparse Tensor Cores (SpTCs) を用いたMOE LLMの革新的加速システムであるSamoyedsを提案する。
Samoyedsは、アクティベーションとモデルパラメータの両方にスパーシティを同時に適用した最初の企業である。
また、MoE計算に適したスパースデータフォーマットを導入し、特別なスパーススパース行列乗算カーネルを開発する。
さらに、Samoyedsは、SpTC上でのデュアルサイド構造化されたスパースMOE LLMの実行に特化して設計された体系的な最適化を取り入れ、システム性能をさらに向上させる。
評価によると、SOTAはカーネルレベルでは1.99$\times$、モデルレベルでは1.58$\times$より優れている。
さらに、メモリ効率が向上し、サポート対象のバッチサイズが平均4.41$\times$になる。
さらに、Samoyedsはモデル精度とハードウェアポータビリティの両方で既存のSOTA構造化スパースソリューションを上回っている。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Flat U-Net: An Efficient Ultralightweight Model for Solar Filament Segmentation in Full-disk H$α$ Images [4.515814914029772]
太陽フィラメントのリアルタイム自動識別は、大量のデータを管理する上で最も効果的な方法である。
既存のフィラメント同定のモデルは、大きなパラメータサイズと高い計算コストによって特徴づけられる。
単純化されたチャネルアテンション(SCA)とチャネル自己注意(CSA)畳み込みブロックを組み込んだ,新規で高効率な超軽量モデルであるFlat U-Netを紹介する。
論文 参考訳(メタデータ) (2025-02-11T04:57:33Z) - Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models [1.8434042562191815]
本稿では,SSMモデル,特にMambaとそのハイブリッドモデルの圧縮について検討する。
本研究では, モデルサイズと計算オーバーヘッドを低減し, 精度を保ちながら効率を向上させるため, 選択した成分を異なる粒度で除去する際の感度について検討する。
提案手法は,総称してMamba-Shedderと呼ばれ,モデル性能への影響を最小限に抑えることで,モデル効率を最大1.4倍に向上できることを示す。
論文 参考訳(メタデータ) (2025-01-28T17:22:01Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。