論文の概要: HyperMixer: An MLP-based Low Cost Alternative to Transformers
- arxiv url: http://arxiv.org/abs/2203.03691v3
- Date: Mon, 13 Nov 2023 16:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 00:54:51.679068
- Title: HyperMixer: An MLP-based Low Cost Alternative to Transformers
- Title(参考訳): HyperMixer: トランスフォーマーに代わるMLPベースの低コスト
- Authors: Florian Mai, Arnaud Pannatier, Fabio Fehr, Haolin Chen, Francois
Marelli, Francois Fleuret, James Henderson
- Abstract要約: 本稿では,ハイパーネットを用いたトークン混合を動的に生成する,シンプルな変種HyperMixerを提案する。
Transformersとは対照的に、HyperMixerは処理時間、トレーニングデータ、ハイパーチューニングといった面で、これらの結果を大幅に低コストで達成します。
- 参考スコア(独自算出の注目度): 12.785548869229052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based architectures are the model of choice for natural language
understanding, but they come at a significant cost, as they have quadratic
complexity in the input length, require a lot of training data, and can be
difficult to tune. In the pursuit of lower costs, we investigate simple
MLP-based architectures. We find that existing architectures such as MLPMixer,
which achieves token mixing through a static MLP applied to each feature
independently, are too detached from the inductive biases required for natural
language understanding. In this paper, we propose a simple variant, HyperMixer,
which forms the token mixing MLP dynamically using hypernetworks. Empirically,
we demonstrate that our model performs better than alternative MLP-based
models, and on par with Transformers. In contrast to Transformers, HyperMixer
achieves these results at substantially lower costs in terms of processing
time, training data, and hyperparameter tuning.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは自然言語理解のモデルであるが、入力長が2次に複雑であり、多くのトレーニングデータを必要としており、チューニングが難しいため、かなりのコストがかかる。
低コストを追求する上で,シンプルなMLPアーキテクチャについて検討する。
MLPMixerのような既存のアーキテクチャは、各機能に独立して適用される静的MLPを通じてトークンの混合を実現するが、自然言語理解に必要な帰納的バイアスから分離しすぎている。
本稿では,ハイパーネットを用いたトークン混合MLPを動的に生成する,シンプルな変種HyperMixerを提案する。
実験により、我々のモデルは代替のMLPモデルよりも優れた性能を示し、トランスフォーマーと同等の性能を示す。
トランスフォーマーとは対照的に、ハイパーミキサーは処理時間、トレーニングデータ、ハイパーパラメータチューニングといった面で、これらをかなり低いコストで達成する。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer [2.5782420501870296]
ホップフィールドネットワークとトランスフォーマーのようなアーキテクチャの研究をiMixerに一般化する。
iMixerは、出力側から入力側へ前進する一般化である。
画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。
この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision? [0.0]
CNNはコンピュータビジョンの世界では過去10年間、最高位に君臨してきたが、最近はTransformerの人気が高まっている。
特に、我々の研究は、モデルが誘導バイアスを採用することでCNNを置き換える可能性を示唆している。
提案モデルであるRaftMLPは,計算複雑性,パラメータ数,実際のメモリ使用量のバランスが良好である。
論文 参考訳(メタデータ) (2021-08-09T23:55:24Z) - Pay Attention to MLPs [84.54729425918164]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文 参考訳(メタデータ) (2021-05-17T17:55:04Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。