Fugu-MT 論文翻訳(概要): Task-Specific Expert Pruning for Sparse Mixture-of-Experts

論文の概要: Task-Specific Expert Pruning for Sparse Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2206.00277v2
Date: Thu, 2 Jun 2022 03:44:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-03 11:54:30.489910
Title: Task-Specific Expert Pruning for Sparse Mixture-of-Experts
Title（参考訳）: sparse mixed-of-expertsのタスク特化エキスパートpruning
Authors: Tianyu Chen, Shaohan Huang, Yuan Xie, Binxing Jiao, Daxin Jiang, Haoyi Zhou, Jianxin Li, Furu Wei
Abstract要約: Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
参考スコア（独自算出の注目度）: 105.20605021416276
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The sparse Mixture-of-Experts (MoE) model is powerful for large-scale pre-training and has achieved promising results due to its model capacity. However, with trillions of parameters, MoE is hard to be deployed on cloud or mobile environment. The inference of MoE requires expert parallelism, which is not hardware-friendly and communication expensive. Especially for resource-limited downstream tasks, such sparse structure has to sacrifice a lot of computing efficiency for limited performance gains. In this work, we observe most experts contribute scarcely little to the MoE fine-tuning and inference. We further propose a general method to progressively drop the non-professional experts for the target downstream task, which preserves the benefits of MoE while reducing the MoE model into one single-expert dense model. Our experiments reveal that the fine-tuned single-expert model could preserve 99.3% benefits from MoE across six different types of tasks while enjoying 2x inference speed with free communication cost.
Abstract（参考訳）: sparse Mixture-of-Experts (MoE) モデルは大規模事前トレーニングには強力であり,そのモデル能力により有望な結果を得た。しかし、何兆というパラメータを持つMoEは、クラウドやモバイル環境にデプロイするのは難しい。 MoEの推論には、ハードウェアフレンドリで通信コストのかかる専門家の並列性が必要だ。特にリソース制限のあるダウンストリームタスクの場合、そのようなスパース構造は性能向上のために多くの計算効率を犠牲にしなければならない。この研究では、ほとんどの専門家がMoEの微調整と推論にほとんど貢献していないのを観察します。さらに,目標下流タスクの非専門的専門家を段階的に降ろし,MoEモデルの利点を保ちながら,MoEモデルを1つの専門的高密度モデルに還元する手法を提案する。実験の結果,6種類のタスクにまたがるmoeの99.3%の利点を保ちつつ,自由通信コストで2倍の推論速度を享受できることがわかった。

関連論文リスト

MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models [36.730689832979365]
MoTEは、密なチェックポイントからMixture-of-Ternary-Expertsモデルをトレーニングするためのスケーラブルでメモリ効率のよいアプローチである。 MoTEはメモリフットプリントを低くしながら、完全精度のベースラインであるMoE-LLaVAに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-17T11:53:49Z)
Faster MoE LLM Inference for Extremely Large Models [75.57674991584608]
きめ細かいMoEモデルは人気を集めているが、研究は限られている。アクティベートされた専門家の数を削減すれば、特定のシナリオにおける大幅な効率改善につながる可能性がある。性能劣化を伴わずにスループットを少なくとも10%向上させることができる。
論文参考訳（メタデータ） (2025-05-06T13:41:17Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文参考訳（メタデータ） (2025-02-07T22:51:17Z)
A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。 MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文参考訳（メタデータ） (2024-06-26T10:07:57Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文参考訳（メタデータ） (2024-04-03T16:33:42Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文参考訳（メタデータ） (2024-02-19T21:20:22Z)
Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文参考訳（メタデータ） (2023-09-11T13:31:00Z)
Beyond Distillation: Task-level Mixture-of-Experts for Efficient Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。 WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文参考訳（メタデータ） (2021-09-24T20:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。