論文の概要: RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision?
- arxiv url: http://arxiv.org/abs/2108.04384v1
- Date: Mon, 9 Aug 2021 23:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 01:21:48.000885
- Title: RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision?
- Title(参考訳): RaftMLP: MLPベースのモデルはコンピュータビジョンに勝つだろうか?
- Authors: Yuki Tatsunami and Masato Taki
- Abstract要約: CNNはコンピュータビジョンの世界では過去10年間、最高位に君臨してきたが、最近はTransformerの人気が高まっている。
特に、我々の研究は、モデルが誘導バイアスを採用することでCNNを置き換える可能性を示唆している。
提案モデルであるRaftMLPは,計算複雑性,パラメータ数,実際のメモリ使用量のバランスが良好である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For the past ten years, CNN has reigned supreme in the world of computer
vision, but recently, Transformer is on the rise. However, the quadratic
computational cost of self-attention has become a severe problem of practice.
There has been much research on architectures without CNN and self-attention in
this context. In particular, MLP-Mixer is a simple idea designed using MLPs and
hit an accuracy comparable to the Vision Transformer. However, the only
inductive bias in this architecture is the embedding of tokens. Thus, there is
still a possibility to build a non-convolutional inductive bias into the
architecture itself, and we built in an inductive bias using two simple ideas.
A way is to divide the token-mixing block vertically and horizontally. Another
way is to make spatial correlations denser among some channels of token-mixing.
With this approach, we were able to improve the accuracy of the MLP-Mixer while
reducing its parameters and computational complexity. Compared to other
MLP-based models, the proposed model, named RaftMLP has a good balance of
computational complexity, the number of parameters, and actual memory usage. In
addition, our work indicates that MLP-based models have the potential to
replace CNNs by adopting inductive bias. The source code in PyTorch version is
available at \url{https://github.com/okojoalg/raft-mlp}.
- Abstract(参考訳): 過去10年間、コンピュータビジョンの世界ではCNNが最高位に君臨してきたが、最近はTransformerの人気が高まっている。
しかし、自己注意の二次計算コストは、実践上の深刻な問題となっている。
この文脈では、CNNと自己注意のないアーキテクチャについて多くの研究がなされている。
特に、MLP-Mixerは、MPPを用いて設計され、Vision Transformerに匹敵する精度を達成した単純なアイデアである。
しかし、このアーキテクチャにおける唯一の帰納バイアスはトークンの埋め込みである。
したがって、アーキテクチャ自体に非畳み込みの帰納バイアスを構築することが可能であり、私たちは2つの単純なアイデアを使って帰納バイアスを構築しました。
トークン混合ブロックを垂直および水平に分割する方法がある。
別の方法は、トークンミキシングのいくつかのチャネル間の空間的相関をより高めることである。
このアプローチにより,MLP-Mixerのパラメータと計算複雑性を低減し,精度を向上させることができた。
他のMLPベースのモデルと比較して、提案モデルであるRaftMLPは計算複雑性、パラメータの数、実際のメモリ使用量のバランスが良い。
さらに,本研究は,MPPモデルが誘導バイアスを採用することでCNNを置き換える可能性を示唆している。
PyTorch バージョンのソースコードは \url{https://github.com/okojoalg/raft-mlp} で入手できる。
関連論文リスト
- MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。