論文の概要: BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons
- arxiv url: http://arxiv.org/abs/2212.14158v1
- Date: Thu, 29 Dec 2022 02:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:30:00.518369
- Title: BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons
- Title(参考訳): bimlp:視覚多層パーセプトロンのためのコンパクトバイナリアーキテクチャ
- Authors: Yixing Xu, Xinghao Chen, Yunhe Wang
- Abstract要約: 本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
- 参考スコア(独自算出の注目度): 37.28828605119602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of designing compact binary architectures for
vision multi-layer perceptrons (MLPs). We provide extensive analysis on the
difficulty of binarizing vision MLPs and find that previous binarization
methods perform poorly due to limited capacity of binary MLPs. In contrast with
the traditional CNNs that utilizing convolutional operations with large kernel
size, fully-connected (FC) layers in MLPs can be treated as convolutional
layers with kernel size $1\times1$. Thus, the representation ability of the FC
layers will be limited when being binarized, and places restrictions on the
capability of spatial mixing and channel mixing on the intermediate features.
To this end, we propose to improve the performance of binary MLP (BiMLP) model
by enriching the representation ability of binary FC layers. We design a novel
binary block that contains multiple branches to merge a series of outputs from
the same stage, and also a universal shortcut connection that encourages the
information flow from the previous stage. The downsampling layers are also
carefully designed to reduce the computational complexity while maintaining the
classification performance. Experimental results on benchmark dataset
ImageNet-1k demonstrate the effectiveness of the proposed BiMLP models, which
achieve state-of-the-art accuracy compared to prior binary CNNs. The MindSpore
code is available at
\url{https://gitee.com/mindspore/models/tree/master/research/cv/BiMLP}.
- Abstract(参考訳): 本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
視覚MLPをバイナライズすることの難しさを広範囲に分析した結果,従来のバイナライズ手法ではバイナリMPPの容量が限られていたため,性能が低かった。
カーネルサイズが大きい畳み込み演算を利用する従来のCNNとは対照的に、MLP内の完全連結(FC)層は、カーネルサイズが1\times1$の畳み込み層として扱うことができる。
したがって、二項化されるとFC層の表現能力が制限され、中間特性に空間混合やチャネル混合の能力に制限が課される。
そこで本研究では,バイナリFC層の表現能力を高めることにより,バイナリMLP(BiMLP)モデルの性能を向上させることを提案する。
我々は、複数の分岐を含む新しいバイナリブロックを設計し、同じステージからの一連の出力をマージし、また、前ステージからの情報フローを促進する普遍的なショートカット接続を設計する。
ダウンサンプリング層は、分類性能を維持しながら計算の複雑さを低減するように設計されている。
ベンチマークデータセットであるimagenet-1kの実験結果は、従来のバイナリcnnと比較して最先端精度を実現するbimlpモデルの有効性を示している。
MindSporeのコードは \url{https://gitee.com/mindspore/models/tree/master/research/cv/BiMLP} で公開されている。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-Concatenation [68.24659910441736]
Shifted-Pillars-Concatenation (SPC)モジュールは、より優れたローカルモデリングパワーとパフォーマンス向上を提供する。
我々は、SMLPNetのハイブリッドモデルにおいて、畳み込み層をSPCモジュールに置き換えることで、Caterpillarと呼ばれる純粋なMLPアーキテクチャを構築します。
実験では、小さなスケールとImageNet-1kの分類ベンチマークにおいて、Caterpillarの優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-28T06:19:36Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。