Fugu-MT 論文翻訳(概要): MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts

論文の概要: MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts

arxiv url: http://arxiv.org/abs/2410.14574v1
Date: Fri, 18 Oct 2024 16:20:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.539393
Title: MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts
Title（参考訳）: MomentumSMoE:Momentumをエキスパートのスパースミックスに統合
Authors: Rachel S. Y. Teo, Tan M. Nguyen,
Abstract要約: 我々は、MomentumSMoEと呼ばれるSMoEの新しいファミリーを提案する。我々は,MomentumSMoEがSMoEよりも安定で頑健であることを証明する。我々は、視覚用スパースMoEモデル(V-MoE)や汎用言語モデル(GLaM)など、多くの種類のスパースMoEモデルに対するMomentumSMoEの適用性を実証する。
参考スコア（独自算出の注目度）: 2.1605931466490795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Mixture of Experts (SMoE) has become the key to unlocking unparalleled scalability in deep learning. SMoE has the potential to exponentially increase parameter count while maintaining the efficiency of the model by only activating a small subset of these parameters for a given sample. However, it has been observed that SMoE suffers from unstable training and has difficulty adapting to new distributions, leading to the model's lack of robustness to data contamination. To overcome these limitations, we first establish a connection between the dynamics of the expert representations in SMoEs and gradient descent on a multi-objective optimization problem. Leveraging our framework, we then integrate momentum into SMoE and propose a new family of SMoEs named MomentumSMoE. We theoretically prove and numerically demonstrate that MomentumSMoE is more stable and robust than SMoE. In particular, we verify the advantages of MomentumSMoE over SMoE on a variety of practical tasks including ImageNet-1K object recognition and WikiText-103 language modeling. We demonstrate the applicability of MomentumSMoE to many types of SMoE models, including those in the Sparse MoE model for vision (V-MoE) and the Generalist Language Model (GLaM). We also show that other advanced momentum-based optimization methods, such as Adam, can be easily incorporated into the MomentumSMoE framework for designing new SMoE models with even better performance, almost negligible additional computation cost, and simple implementations.
Abstract（参考訳）: SMOE(Sparse Mixture of Experts)は、ディープラーニングにおける非並列スケーラビリティの鍵となっている。 SMoEは、与えられたサンプルに対して、これらのパラメータの小さなサブセットを活性化するだけで、モデルの効率を維持しながら、指数関数的にパラメータ数を増やすことができる。しかし、SMoEは不安定なトレーニングに悩まされており、新しい分布への適応が困難であることから、データ汚染に対する堅牢性の欠如が観察されている。これらの制限を克服するために、まず、SMoEのエキスパート表現のダイナミクスと多目的最適化問題への勾配勾配の関係を確立する。フレームワークを活用して、SMoEに運動量を統合するとともに、MomentumSMoEと呼ばれる新しいSMoEファミリーを提案する。理論的には、MomentumSMoEはSMoEよりも安定で頑健であることを証明し、数値的に証明する。特に,ImageNet-1Kオブジェクト認識やWikiText-103言語モデリングなど,SMoEに対するMomentumSMoEの利点を検証する。本稿では,視覚用スパースMoEモデル (V-MoE) や一般言語モデル (GLaM) など,様々な種類のSMoEモデルに適用可能であることを示す。また、Adamのような他の高度な運動量に基づく最適化手法がMomentumSMoEフレームワークに簡単に組み込まれ、より優れた性能、ほぼ無視可能な計算コスト、単純な実装で新しいSMoEモデルを設計できることを示す。

関連論文リスト

Improving Routing in Sparse Mixture of Experts with Graph of Tokens [32.46693871593765]
確率的グラフィカルモデル(PGM)の観点からSMOE(Sparse Mixture of Experts)の限界を明らかにする。本稿では,専門家選択時のトークン間の相互作用を考慮した新しい類似性認識(S)MoEを提案する。我々は、様々なタスクやドメインでモデルを実証的に検証し、ルーティングのゆらぎを低減するための大幅な改善を示す。
論文参考訳（メタデータ） (2025-05-01T18:44:20Z)
MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文参考訳（メタデータ） (2025-03-29T14:35:34Z)
Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。 SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。 COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2024-12-13T05:40:50Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Retraining-Free Merging of Sparse Mixture-of-Experts via Hierarchical Clustering [14.858134039539697]
疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングを提案する。 HC-SMoEはタスクに依存しないエキスパートマージフレームワークで、再トレーニングせずにSMoEモデルのパラメータを削減できる。我々は8つのゼロショット言語タスクに関する広範な実験を通じてアプローチを検証するとともに、QwenやMixtralといった大規模SMoEモデルにおいてその効果を実証する。
論文参考訳（メタデータ） (2024-10-11T07:36:14Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。