論文の概要: A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP
- arxiv url: http://arxiv.org/abs/2108.13002v1
- Date: Mon, 30 Aug 2021 06:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:38:05.956041
- Title: A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP
- Title(参考訳): ネットワーク構造の戦い:CNN, Transformer, MLPの実証的研究
- Authors: Yucheng Zhao, Guangting Wang, Chuanxin Tang, Chong Luo, Wenjun Zeng,
Zheng-Jun Zha
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
- 参考スコア(独自算出の注目度): 121.35904748477421
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional neural networks (CNN) are the dominant deep neural network
(DNN) architecture for computer vision. Recently, Transformer and multi-layer
perceptron (MLP)-based models, such as Vision Transformer and MLP-Mixer,
started to lead new trends as they showed promising results in the ImageNet
classification task. In this paper, we conduct empirical studies on these DNN
structures and try to understand their respective pros and cons. To ensure a
fair comparison, we first develop a unified framework called SPACH which adopts
separate modules for spatial and channel processing. Our experiments under the
SPACH framework reveal that all structures can achieve competitive performance
at a moderate scale. However, they demonstrate distinctive behaviors when the
network size scales up. Based on our findings, we propose two hybrid models
using convolution and Transformer modules. The resulting Hybrid-MS-S+ model
achieves 83.9% top-1 accuracy with 63M parameters and 12.3G FLOPS. It is
already on par with the SOTA models with sophisticated designs. The code and
models will be made publicly available.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
近年,ビジョントランスフォーマーやMLP-Mixerのようなトランスフォーマーと多層パーセプトロン(MLP)ベースのモデルが,イメージネット分類タスクにおいて有望な結果を示すとともに,新たなトレンドを導い始めている。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
公平な比較を確保するため,まず空間処理とチャネル処理を分離したSPACHという統合フレームワークを開発した。
SPACHフレームワークによる実験により、全ての構造が適度な規模で競争性能を達成できることが判明した。
しかし、ネットワークサイズが大きくなると特徴的な挙動を示す。
そこで本研究では,畳み込みモジュールとトランスフォーマーモジュールを用いたハイブリッドモデルを提案する。
結果、Hybrid-MS-S+モデルは、63Mパラメータと12.3G FLOPSで83.9%のTop-1精度を達成した。
それは既に洗練された設計のSOTAモデルと同等である。
コードとモデルは公開される予定だ。
関連論文リスト
- HyperKAN: Kolmogorov-Arnold Networks make Hyperspectral Image Classificators Smarter [0.0699049312989311]
本稿では,従来のネットワークの線形層と畳み込み層をKANベースのネットワークに置き換えることを提案する。
これらの修正により,高スペクトルリモートセンシング画像の画素単位の分類精度が大幅に向上した。
最も大きな効果は、スペクトルデータのみを扱う畳み込みネットワークにおいて達成された。
論文 参考訳(メタデータ) (2024-07-07T06:36:09Z) - How to Learn More? Exploring Kolmogorov-Arnold Networks for Hyperspectral Image Classification [26.37105279142761]
Kolmogorov-Arnold Networks (KANs) は視覚変換器 (ViTs) の代替として提案された。
本研究では,複雑なハイパースペクトル画像(HSI)データ分類におけるkansの有効性を評価する。
そこで我々は,1D,2D,3Dkanを用いたハイブリッドアーキテクチャを開発し,提案する。
論文 参考訳(メタデータ) (2024-06-22T03:31:02Z) - SENetV2: Aggregated dense layer for channelwise and global
representations [0.0]
我々は,Squeeze残余モジュール内に,多分岐密度層である新しい多層パーセプトロンを導入する。
この融合により、チャネルワイドパターンを捕捉し、グローバルな知識を持つネットワークの能力が向上する。
ベンチマークデータセットの広範な実験を行い、モデルを検証し、確立したアーキテクチャと比較する。
論文 参考訳(メタデータ) (2023-11-17T14:10:57Z) - SparseSpikformer: A Co-Design Framework for Token and Weight Pruning in
Spiking Transformer [12.717450255837178]
スパイキングニューラルネットワーク(SNN)は低消費電力と高エネルギー効率の利点がある。
最も先進的なSNNであるSpikformerは、Transformerの自己保持モジュールとSNNを組み合わせて、優れたパフォーマンスを実現している。
本稿では,SparseSpikformerについて紹介する。SparseSpikformerはトークンとウェイトプルーニング技術を用いてSparseSpikformerのスパーシ性を実現するための共同設計フレームワークである。
論文 参考訳(メタデータ) (2023-11-15T09:22:52Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。