Fugu-MT 論文翻訳(概要): DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models

論文の概要: DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models

arxiv url: http://arxiv.org/abs/2503.01359v1
Date: Mon, 03 Mar 2025 09:52:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.928717
Title: DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models
Title（参考訳）: DeRS: 非常に効率的な再資源化混合モデルを目指して
Authors: Yongqi Huang, Peng Ye, Chenyu Huang, Jianjian Cao, Lin Zhang, Baopu Li, Gang Yu, Tao Chen,
Abstract要約: リサイクル・ミックス・オブ・エクササイズ(MoE)モデルは、様々なタスクにおいて大きな可能性を示している。これらのモデルは、複数の専門家の導入により、依然としてかなりのパラメータ非効率に悩まされている。本稿では,この欠点を克服する新しいDeRS(Decompose, Replace, and Synthesis)パラダイムを提案する。
参考スコア（独自算出の注目度）: 35.4157501560501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Upcycled Mixture-of-Experts (MoE) models have shown great potential in various tasks by converting the original Feed-Forward Network (FFN) layers in pre-trained dense models into MoE layers. However, these models still suffer from significant parameter inefficiency due to the introduction of multiple experts. In this work, we propose a novel DeRS (Decompose, Replace, and Synthesis) paradigm to overcome this shortcoming, which is motivated by our observations about the unique redundancy mechanisms of upcycled MoE experts. Specifically, DeRS decomposes the experts into one expert-shared base weight and multiple expert-specific delta weights, and subsequently represents these delta weights in lightweight forms. Our proposed DeRS paradigm can be applied to enhance parameter efficiency in two different scenarios, including: 1) DeRS Compression for inference stage, using sparsification or quantization to compress vanilla upcycled MoE models; and 2) DeRS Upcycling for training stage, employing lightweight sparse or low-rank matrixes to efficiently upcycle dense models into MoE models. Extensive experiments across three different tasks show that the proposed methods can achieve extreme parameter efficiency while maintaining the performance for both training and compression of upcycled MoE models.
Abstract（参考訳）: 事前学習された高密度モデルのフィードフォワードネットワーク(FFN)層をMoE層に変換することで,MoEモデルが様々なタスクにおいて大きな可能性を示している。しかし、これらのモデルは、複数の専門家の導入により、重要なパラメータ非効率に悩まされている。本研究では,この欠点を克服する新しいDeRS(Decompose, Replace, and Synthesis)パラダイムを提案する。具体的には、DeRSは専門家を1つの専門家共有のベースウェイトと複数の専門家固有のデルタウェイトに分解し、その後、これらのデルタウェイトを軽量な形で表現する。提案したDeRSパラダイムは,2つのシナリオにおいてパラメータ効率を向上させるために適用することができる。 1)スパシフィケーションまたは量子化を用いてバニラ上循環型MoEモデルを圧縮した推論段階のDeRS圧縮 2) 軽量スパースまたは低ランクマトリックスを用いたトレーニング段階のDeRSアップサイクリングにより, 濃厚モデルをMoEモデルに効率よくアップサイクリングする。 3つの異なるタスクにまたがる広範囲な実験により、提案手法は、アップサイクルMOEモデルのトレーニングと圧縮の両方のパフォーマンスを維持しながら、極端なパラメータ効率を実現することができることを示した。

関連論文リスト

MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文参考訳（メタデータ） (2025-06-06T09:54:19Z)
S'MoRE: Structural Mixture of Residual Experts for LLM Fine-tuning [17.579948649237497]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。具体的には、S'MoREはエキスパートウェイトを階層的に低ランクに分解し、多層構造に相互接続した様々な順序の残基を生成する。我々はS'MoREが従来のMoE(Mixture-of-LoRA)の「構造的柔軟性」を指数的順序で改善することを証明する。
論文参考訳（メタデータ） (2025-04-08T20:54:00Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization [18.271311365080802]
エキスパートの混合(MoE)アーキテクチャは、同等のキャパシティの密度の高いモデルと比較して、トレーニングと推論のコストを著しく削減します。アップサイクリング(Upcycling)は、トレーニング済みの高密度モデルを使用してMoEモデルを初期化し、トレーニングするアプローチである。ドロップアップサイクルは、事前訓練された高密度モデルの知識を活用しながら、重量の一部を統計的に再出発させるという、一見矛盾する2つのアプローチを組み合わせたものである。
論文参考訳（メタデータ） (2025-02-26T16:06:36Z)
ToMoE: Converting Dense Large Language Models to Mixture-of-Experts through Dynamic Structural Pruning [24.8038863056542]
大規模言語モデル(LLM)は、幅広い複雑なタスクに対処する際、顕著な能力を示した。その膨大な計算とメモリコストは、これらのモデルをリソース制約されたデバイスにデプロイする際の大きな課題を提起する。本研究では,高密度モデルに一定数のアクティブパラメータを保持するために,異なる動的プルーニング手法を提案する。
論文参考訳（メタデータ） (2025-01-25T20:01:42Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。本稿では,BAM(Branch-Attend-Mix)を提案する。 5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文参考訳（メタデータ） (2024-08-15T17:19:12Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
Towards Being Parameter-Efficient: A Stratified Sparsely Activated Transformer with Dynamic Capacity [37.04254056062765]
Stratified Mixture of Experts (SMoE)モデルは、異なるトークンに動的キャパシティを割り当てることができる。 SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。
論文参考訳（メタデータ） (2023-05-03T15:18:18Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。