論文の概要: DynaMixer: A Vision MLP Architecture with Dynamic Mixing
- arxiv url: http://arxiv.org/abs/2201.12083v1
- Date: Fri, 28 Jan 2022 12:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 21:19:54.519010
- Title: DynaMixer: A Vision MLP Architecture with Dynamic Mixing
- Title(参考訳): DynaMixer:動的ミキシングを備えたビジョンMLPアーキテクチャ
- Authors: Ziyu Wang and Wenhao Jiang and Yiming Zhu and Li Yuan and Yibing Song
and Wei Liu
- Abstract要約: 本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
- 参考スコア(独自算出の注目度): 38.23027495545522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, MLP-like vision models have achieved promising performances on
mainstream visual recognition tasks. In contrast with vision transformers and
CNNs, the success of MLP-like models shows that simple information fusion
operations among tokens and channels can yield a good representation power for
deep recognition models. However, existing MLP-like models fuse tokens through
static fusion operations, lacking adaptability to the contents of the tokens to
be mixed. Thus, customary information fusion procedures are not effective
enough. To this end, this paper presents an efficient MLP-like network
architecture, dubbed DynaMixer, resorting to dynamic information fusion.
Critically, we propose a procedure, on which the DynaMixer model relies, to
dynamically generate mixing matrices by leveraging the contents of all the
tokens to be mixed. To reduce the time complexity and improve the robustness, a
dimensionality reduction technique and a multi-segment fusion mechanism are
adopted. Our proposed DynaMixer model (97M parameters) achieves 84.3\% top-1
accuracy on the ImageNet-1K dataset without extra training data, performing
favorably against the state-of-the-art vision MLP models. When the number of
parameters is reduced to 26M, it still achieves 82.7\% top-1 accuracy,
surpassing the existing MLP-like models with a similar capacity. The
implementation of DynaMixer will be made available to the public.
- Abstract(参考訳): 近年,MLPのような視覚モデルが主流の視覚認識タスクにおいて有望な性能を達成している。
視覚トランスフォーマーやcnnとは対照的に、mlpライクなモデルの成功は、トークンとチャネル間の単純な情報融合操作が深い認識モデルに優れた表現力をもたらすことを示している。
しかし、既存のMLPのようなモデルは、トークンを静的融合操作を通じて融合させ、混在するトークンの内容への適応性に欠ける。
したがって、慣用的な情報融合手順は不十分である。
そこで本稿では,動的情報融合を利用して,DynaMixerと呼ばれる効率的なMLP型ネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルが依存する手法を提案し,混合する全てのトークンの内容を活用することで,混合行列を動的に生成する。
時間の複雑さを低減し、ロバスト性を向上させるため、寸法低減技術と多セグメント融合機構を採用する。
提案したDynaMixerモデル (97Mパラメータ) は,ImageNet-1Kデータセットの84.3\%のTop-1精度を実現する。
パラメータ数が26mに減少しても82.7\%のtop-1精度を達成し、同様の能力を持つ既存のmlpライクなモデルを上回る。
DynaMixerの実装は一般公開される予定だ。
関連論文リスト
- Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。
最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。
本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文 参考訳(メタデータ) (2024-06-18T02:42:19Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - CS-Mixer: A Cross-Scale Vision MLP Model with Spatial-Channel Mixing [2.1016271540149636]
本稿では,局所的および大域的集約による空間チャネル混合のための動的低ランク変換を学習する階層的ビジョンを提案する。
我々の最大のモデルであるCS-Mixer-Lは、13.7 GFLOPと94Mパラメータを持つImageNet-1kで83.2%の精度に達した。
論文 参考訳(メタデータ) (2023-08-25T13:18:14Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - SplitMixer: Fat Trimmed From MLP-like Models [53.12472550578278]
視覚認識のためのシンプルで軽量な等方的アーキテクチャであるSplitMixerを提案する。
情報(空間混合)とチャネル(チャネル混合)の2種類のインターリーブ畳み込み操作を含む。
論文 参考訳(メタデータ) (2022-07-21T01:37:07Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - pNLP-Mixer: an Efficient all-MLP Architecture for Language [10.634940525287014]
オンデバイスNLPのためのpNLP-Mixerモデルは、新しいプロジェクション層により高い重量効率を実現する。
MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。
私たちのモデルは、MTOPで最大7.8%のマージンで、2倍の大きさの小さなモデルの最先端を一貫して打ち負かしています。
論文 参考訳(メタデータ) (2022-02-09T09:01:29Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。