論文の概要: RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality
- arxiv url: http://arxiv.org/abs/2112.11081v1
- Date: Tue, 21 Dec 2021 10:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 13:23:57.813786
- Title: RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality
- Title(参考訳): RepMLPNet: 局所性を再パラメータ化した階層型ビジョンMLP
- Authors: Xiaohan Ding, Honghao Chen, Xiangyu Zhang, Jungong Han, Guiguang Ding
- Abstract要約: そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
- 参考スコア(独自算出の注目度): 113.1414517605892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to convolutional layers, fully-connected (FC) layers are better at
modeling the long-range dependencies but worse at capturing the local patterns,
hence usually less favored for image recognition. In this paper, we propose a
methodology, Locality Injection, to incorporate local priors into an FC layer
via merging the trained parameters of a parallel conv kernel into the FC
kernel. Locality Injection can be viewed as a novel Structural
Re-parameterization method since it equivalently converts the structures via
transforming the parameters. Based on that, we propose a multi-layer-perceptron
(MLP) block named RepMLP Block, which uses three FC layers to extract features,
and a novel architecture named RepMLPNet. The hierarchical design distinguishes
RepMLPNet from the other concurrently proposed vision MLPs. As it produces
feature maps of different levels, it qualifies as a backbone model for
downstream tasks like semantic segmentation. Our results reveal that 1)
Locality Injection is a general methodology for MLP models; 2) RepMLPNet has
favorable accuracy-efficiency trade-off compared to the other MLPs; 3)
RepMLPNet is the first MLP that seamlessly transfer to Cityscapes semantic
segmentation. The code and models are available at
https://github.com/DingXiaoH/RepMLP.
- Abstract(参考訳): 畳み込み層と比較すると、完全連結(fc)層は長距離依存性のモデリングに優れるが、局所的なパターンを捉えにくいため、画像認識にはあまり好まれない。
本稿では,並列なconvカーネルの訓練されたパラメータをFCカーネルにマージすることで,局所的な前処理をFC層に組み込む手法であるLocality Injectionを提案する。
局所性注入は、パラメータ変換によって等価に構造を変換するため、新しい構造的再パラメータ化法と見なすことができる。
そこで我々は3つのFC層を用いて特徴を抽出するマルチ層パーセプトロン(MLP)ブロックRepMLPブロックと、RepMLPNetという新しいアーキテクチャを提案する。
階層設計はRepMLPNetと他の同時提案されたビジョンMLPとを区別する。
異なるレベルの機能マップを生成するため、セマンティックセグメンテーションのような下流タスクのバックボーンモデルとして機能する。
私たちの結果は
1) 局所性注入はMLPモデルの一般的な方法論である。
2) RepMLPNetは,他のMLPと比較して,良好な精度・効率のトレードオフを有する。
3) RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに転送する最初のMLPである。
コードとモデルはhttps://github.com/dingxiaoh/repmlpで入手できる。
関連論文リスト
- Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-Concatenation [68.24659910441736]
Shifted-Pillars-Concatenation (SPC)モジュールは、より優れたローカルモデリングパワーとパフォーマンス向上を提供する。
我々は、SMLPNetのハイブリッドモデルにおいて、畳み込み層をSPCモジュールに置き換えることで、Caterpillarと呼ばれる純粋なMLPアーキテクチャを構築します。
実験では、小さなスケールとImageNet-1kの分類ベンチマークにおいて、Caterpillarの優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-28T06:19:36Z) - BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。