Fugu-MT 論文翻訳(概要): MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts

論文の概要: MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2407.09816v3
Date: Mon, 19 Aug 2024 13:16:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 02:09:01.287355
Title: MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts
Title（参考訳）: MaskMoE:Mixture-of-ExpertsにおけるタスクのルーティングによるToken-Level学習の促進
Authors: Zhenpeng Su, Zijia Lin, Xue Bai, Xing Wu, Yizhe Xiong, Haoran Lian, Guangyuan Ma, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu,
Abstract要約: MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
参考スコア（独自算出の注目度）: 38.15244333975921
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling the size of a model enhances its capabilities but significantly increases computation complexity. Mixture-of-Experts models (MoE) address the issue by allowing model size to scale up without substantially increasing training or inference costs. In MoE, there is an important module called the router, which is used to distribute each token to the experts. Currently, the mainstream routing methods include dynamic routing and fixed routing. Despite their promising results, MoE models encounter several challenges. Primarily, for dynamic routing methods, the dispersion of training tokens across multiple experts can lead to underfitting, particularly for infrequent tokens. Additionally, though fixed routing methods can mitigate that issue, they compromise on the diversity of representations. In this paper, we propose \textbf{MaskMoE}, a method designed to enhance token-level learning by employing a routing \textbf{mask}ing technique within the \textbf{M}ixture-\textbf{o}f-\textbf{E}xperts model. MaskMoE is capable of maintaining representation diversity while achieving more comprehensive training. Experimental results demonstrate that our method outperforms previous dominant Mixture-of-Experts models in terms of both perplexity (PPL) and downstream task performance.
Abstract（参考訳）: モデルのサイズを拡大すると、その能力は向上するが、計算の複雑さは大幅に増大する。 Mixture-of-Experts Model (MoE)は、トレーニングや推論コストを大幅に増加させることなく、モデルサイズをスケールアップ可能にすることで、この問題に対処する。 MoEにはルータと呼ばれる重要なモジュールがあり、各トークンを専門家に配布するために使用される。現在、メインストリームのルーティング手法には動的ルーティングと固定ルーティングが含まれる。期待された結果にもかかわらず、MoEモデルはいくつかの課題に直面している。主に動的ルーティング手法では、トレーニングトークンが複数の専門家に分散しているため、特に希少なトークンでは不適合になる可能性がある。さらに、固定ルーティングメソッドはその問題を緩和できるが、表現の多様性を損なう。本稿では, トークンレベルの学習を円滑に行うために, \textbf{M}ixture-\textbf{o}f-\textbf{E}xpertsモデル内に, ルーティング型 \textbf{mask}ing 技術を用いることで, トークンレベルの学習を向上する手法である \textbf{MaskMoE} を提案する。 MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。実験結果から,提案手法は従来のMixture-of-Expertsモデルよりもパープレキシティ(PPL)と下流タスク性能の両面で優れていることが示された。

関連論文リスト

MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning [39.892628170627496]
クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
論文参考訳（メタデータ） (2025-05-21T03:06:10Z)
Improving Routing in Sparse Mixture of Experts with Graph of Tokens [32.46693871593765]
確率的グラフィカルモデル(PGM)の観点からSMOE(Sparse Mixture of Experts)の限界を明らかにする。本稿では,専門家選択時のトークン間の相互作用を考慮した新しい類似性認識(S)MoEを提案する。我々は、様々なタスクやドメインでモデルを実証的に検証し、ルーティングのゆらぎを低減するための大幅な改善を示す。
論文参考訳（メタデータ） (2025-05-01T18:44:20Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
Attention Is All You Need For Mixture-of-Depths Routing [5.419910566904439]
本稿では,新しいアテンションベースのルーティング機構A-MoDを提案する。 A-MoDはトレーニング可能なパラメータを追加しないため、より効率的なトレーニングを可能にする。これにより、MoDモデルの性能が向上する。
論文参考訳（メタデータ） (2024-12-30T11:25:54Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
Mixture of Tokens: Continuous MoE through Cross-Example Aggregation [0.7880651741080428]
エキスパートの混合(MoE)モデルは、言語とビジョンタスクの境界を押し広げています。 MoTは単純で連続的なアーキテクチャであり、スパースMoEモデルと同様にパラメータの数をスケーリングすることができる。我々の最良のモデルは、言語事前学習における高密度トランスフォーマーモデルよりも3倍のトレーニング速度を達成する。
論文参考訳（メタデータ） (2023-10-24T16:03:57Z)
Domain Generalization via Balancing Training Difficulty and Model Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文参考訳（メタデータ） (2023-09-02T07:09:23Z)
SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文参考訳（メタデータ） (2022-12-10T03:44:16Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文参考訳（メタデータ） (2022-04-18T16:48:19Z)
KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文参考訳（メタデータ） (2020-09-11T21:48:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。