論文の概要: Residual Mixture of Experts
- arxiv url: http://arxiv.org/abs/2204.09636v1
- Date: Wed, 20 Apr 2022 17:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:43:24.209530
- Title: Residual Mixture of Experts
- Title(参考訳): 専門家の残留混合
- Authors: Lemeng Wu, Mengchen Liu, Yinpeng Chen, Dongdong Chen, Xiyang Dai, Lu
Yuan
- Abstract要約: Residual Mixture of Experts (RMoE)は、下流タスクにおけるMoEビジョントランスフォーマーの効率的なトレーニングパイプラインである。
RMoEは上向きのMoEトレーニングで同等の結果を得るが、追加のトレーニングコストはわずかである。
- 参考スコア(独自算出の注目度): 75.5489156421442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of Experts (MoE) is able to scale up vision transformers effectively.
However, it requires prohibiting computation resources to train a large MoE
transformer. In this paper, we propose Residual Mixture of Experts (RMoE), an
efficient training pipeline for MoE vision transformers on downstream tasks,
such as segmentation and detection. RMoE achieves comparable results with the
upper-bound MoE training, while only introducing minor additional training cost
than the lower-bound non-MoE training pipelines. The efficiency is supported by
our key observation: the weights of an MoE transformer can be factored into an
input-independent core and an input-dependent residual. Compared with the
weight core, the weight residual can be efficiently trained with much less
computation resource, e.g., finetuning on the downstream data. We show that,
compared with the current MoE training pipeline, we get comparable results
while saving over 30% training cost. When compared with state-of-the-art non-
MoE transformers, such as Swin-T / CvT-13 / Swin-L, we get +1.1 / 0.9 / 1.0
mIoU gain on ADE20K segmentation and +1.4 / 1.6 / 0.6 AP gain on MS-COCO object
detection task with less than 3% additional training cost.
- Abstract(参考訳): Mixture of Experts (MoE)はビジョントランスフォーマーを効果的にスケールアップすることができる。
しかし、大きなmoeトランスフォーマーを訓練するには計算リソースを禁止する必要がある。
本稿では,モエビジョントランスフォーマタ(moe vision transformers)をセグメンテーションや検出などの下流タスクで効率的なトレーニングパイプラインであるrmoe(sustains mixed of experts)を提案する。
RMoEは、上位バウンドのMoEトレーニングと同等の結果を得ると同時に、下位バウンドの非MoEトレーニングパイプラインよりも小さな追加のトレーニングコストしか導入しない。
MoE変換器の重みを入力非依存コアと入力依存残差に分解することができる。
重量コアと比較して、下流データでの微調整など、より少ない計算リソースで重量残差を効率的に訓練することができる。
現在のMoEトレーニングパイプラインと比較して、トレーニングコストを30%以上削減しながら、同等の結果が得られています。
Swin-T / CvT-13 / Swin-Lのような最先端の非MoEトランスと比較すると、ADE20Kセグメンテーションでは+1.1 / 0.9 / 1.0 mIoUゲイン、MS-COCOオブジェクト検出タスクでは+1.4 / 1.6 / 0.6 APゲインが3%以下のトレーニングコストで得られる。
関連論文リスト
- UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths [17.68867710994329]
UniMoDは、各タスクに個別のルータを使用して、どのトークンをプルーニングすべきかを決定するタスク対応トークンプルーニング手法である。
提案手法をShow-oとEmu3に適用し,Show-oでは約15%,Emu3では40%のトレーニングFLOPを削減した。
論文 参考訳(メタデータ) (2025-02-10T13:52:52Z) - Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。
GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文 参考訳(メタデータ) (2024-08-21T16:13:16Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - EquiformerV2: Improved Equivariant Transformer for Scaling to
Higher-Degree Representations [9.718771797861908]
EquiformerV2は、大規模OC20データセットにおける従来の最先端の手法を最大9%の力で上回ります。
また、EquiformerV2とQM9上のEquiformerとOC20 S2EF-2Mデータセットを比較して、より高い学位によるパフォーマンス向上をよりよく理解する。
論文 参考訳(メタデータ) (2023-06-21T07:01:38Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。