論文の概要: Sparse-MLP: A Fully-MLP Architecture with Conditional Computation
- arxiv url: http://arxiv.org/abs/2109.02008v2
- Date: Wed, 8 Sep 2021 20:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 10:27:24.750430
- Title: Sparse-MLP: A Fully-MLP Architecture with Conditional Computation
- Title(参考訳): Sparse-MLP: 条件計算を備えたフルMLPアーキテクチャ
- Authors: Yuxuan Lou, Fuzhao Xue, Zangwei Zheng, Yang You
- Abstract要約: 厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
- 参考スコア(独自算出の注目度): 7.901786481399378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) with sparse conditional computation has been proved
an effective architecture for scaling attention-based models to more parameters
with comparable computation cost. In this paper, we propose Sparse-MLP, scaling
the recent MLP-Mixer model with sparse MoE layers, to achieve a more
computation-efficient architecture. We replace a subset of dense MLP blocks in
the MLP-Mixer model with Sparse blocks. In each Sparse block, we apply two
stages of MoE layers: one with MLP experts mixing information within channels
along image patch dimension, one with MLP experts mixing information within
patches along the channel dimension. Besides, to reduce computational cost in
routing and improve expert capacity, we design Re-represent layers in each
Sparse block. These layers are to re-scale image representations by two simple
but effective linear transformations. When pre-training on ImageNet-1k with
MoCo v3 algorithm, our models can outperform dense MLP models by 2.5\% on
ImageNet Top-1 accuracy with fewer parameters and computational cost. On
small-scale downstream image classification tasks, i.e. Cifar10 and Cifar100,
our Sparse-MLP can still achieve better performance than baselines.
- Abstract(参考訳): 厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
本稿では,最近のmlp-mixerモデルを疎moe層でスケーリングし,より計算効率の高いアーキテクチャを実現するsparse-mlpを提案する。
MLP-Mixerモデルの高密度なMLPブロックのサブセットをスパースブロックに置き換える。
各Sparseブロックでは、MLPの専門家が画像パッチ次元に沿ってチャネル内で情報を混合する手法と、MLP専門家がチャネル次元に沿ってパッチ内で情報を混合する手法の2つの段階をMoE層に適用する。
さらに、ルーティングの計算コストを削減し、専門家の能力を向上させるため、各SparseブロックにRe-represent Layerを設計する。
これらの層は2つの単純かつ効果的な線形変換によって画像表現を再スケールする。
MoCo v3アルゴリズムを用いてImageNet-1kで事前トレーニングを行う場合、当社のモデルは、より少ないパラメータと計算コストでImageNet Top-1精度を2.5倍に高めることができる。
小型ダウンストリーム画像分類タスク、すなわち
Cifar10とCifar100では、Sparse-MLPはベースラインよりもパフォーマンスが向上しています。
関連論文リスト
- SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。