論文の概要: RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition
- arxiv url: http://arxiv.org/abs/2105.01883v1
- Date: Wed, 5 May 2021 06:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:59:59.636737
- Title: RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition
- Title(参考訳): RepMLP: 画像認識のための畳み込みを完全連結層に再パラメータ化する
- Authors: Xiaohan Ding, Xiangyu Zhang, Jungong Han, Guiguang Ding
- Abstract要約: 画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
- 参考スコア(独自算出の注目度): 123.59890802196797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RepMLP, a multi-layer-perceptron-style neural network building
block for image recognition, which is composed of a series of fully-connected
(FC) layers. Compared to convolutional layers, FC layers are more efficient,
better at modeling the long-range dependencies and positional patterns, but
worse at capturing the local structures, hence usually less favored for image
recognition. We propose a structural re-parameterization technique that adds
local prior into an FC to make it powerful for image recognition. Specifically,
we construct convolutional layers inside a RepMLP during training and merge
them into the FC for inference. On CIFAR, a simple pure-MLP model shows
performance very close to CNN. By inserting RepMLP in traditional CNN, we
improve ResNets by 1.8% accuracy on ImageNet, 2.9% for face recognition, and
2.3% mIoU on Cityscapes with lower FLOPs. Our intriguing findings highlight
that combining the global representational capacity and positional perception
of FC with the local prior of convolution can improve the performance of neural
network with faster speed on both the tasks with translation invariance (e.g.,
semantic segmentation) and those with aligned images and positional patterns
(e.g., face recognition). The code and models are available at
https://github.com/DingXiaoH/RepMLP.
- Abstract(参考訳): 本稿では,画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるrepmlpを提案する。
畳み込み層と比較すると、FC層はより効率的で、長距離依存や位置パターンのモデリングに優れるが、局所構造を捉えることには優れており、画像認識にはあまり好ましくない。
画像認識において,局所的な事前処理をFCに加える構造的再パラメータ化手法を提案する。
具体的には、トレーニング中にRepMLP内に畳み込み層を構築し、推論のためにそれらをFCにマージする。
CIFARでは、単純な純粋なMLPモデルがCNNに非常に近い性能を示している。
従来のcnnにrepmlpを挿入することで、imagenetでは1.8%、顔認識では2.9%、フラップが少ない都市景観では2.3%のmiouでresnetを改善した。
我々の興味深い発見は、fcのグローバル表現能力と畳み込み前の位置認識を組み合わせることで、翻訳不変性(意味セグメンテーションなど)とアライメントされた画像と位置パターン(例えば顔認識)の両方のタスクにおいて、より高速なスピードでニューラルネットワークの性能を向上させることができることを示しています。
コードとモデルはhttps://github.com/dingxiaoh/repmlpで入手できる。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - ResMLP: Feedforward networks for image classification with
data-efficient training [73.26364887378597]
画像分類のための多層パーセプトロン上に構築されたアーキテクチャであるResMLPを提案する。
Timmライブラリと事前トレーニングされたモデルに基づいたコードを共有します。
論文 参考訳(メタデータ) (2021-05-07T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。