論文の概要: Hire-MLP: Vision MLP via Hierarchical Rearrangement
- arxiv url: http://arxiv.org/abs/2108.13341v1
- Date: Mon, 30 Aug 2021 16:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:34:15.415325
- Title: Hire-MLP: Vision MLP via Hierarchical Rearrangement
- Title(参考訳): Hire-MLP:階層的再構成によるビジョンMLP
- Authors: Jianyuan Guo, Yehui Tang, Kai Han, Xinghao Chen, Han Wu, Chao Xu,
Chang Xu and Yunhe Wang
- Abstract要約: Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 58.33383667626998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Hire-MLP, a simple yet competitive vision MLP
architecture via hierarchical rearrangement. Previous vision MLPs like
MLP-Mixer are not flexible for various image sizes and are inefficient to
capture spatial information by flattening the tokens. Hire-MLP innovates the
existing MLP-based models by proposing the idea of hierarchical rearrangement
to aggregate the local and global spatial information while being versatile for
downstream tasks. Specifically, the inner-region rearrangement is designed to
capture local information inside a spatial region. Moreover, to enable
information communication between different regions and capture global context,
the cross-region rearrangement is proposed to circularly shift all tokens along
spatial directions. The proposed Hire-MLP architecture is built with simple
channel-mixing MLPs and rearrangement operations, thus enjoys high flexibility
and inference speed. Experiments show that our Hire-MLP achieves
state-of-the-art performance on the ImageNet-1K benchmark. In particular,
Hire-MLP achieves an 83.4\% top-1 accuracy on ImageNet, which surpasses
previous Transformer-based and MLP-based models with better trade-off for
accuracy and throughput.
- Abstract(参考訳): 本稿では,階層的再構成によるシンプルかつ競争的なMDPアーキテクチャであるHire-MLPを提案する。
MLP-Mixerのような従来の視覚MLPは様々な画像サイズに対して柔軟性がなく、トークンを平らにすることで空間情報を捉えるのに非効率である。
Hire-MLPは既存のMLPベースのモデルを革新し、階層的再構成の概念を提唱し、局所的およびグローバルな空間情報を集約し、下流タスクに汎用性を持たせる。
具体的には、内部領域の再配置は、空間領域内の局所情報をキャプチャするように設計されている。
さらに,各地域間の情報通信を可能とし,グローバルコンテキストを捉えるために,すべてのトークンを空間方向に沿って円形に移動させるクロスリージョン再配置を提案する。
提案したHire-MLPアーキテクチャは、単純なチャネル混合型MPPと再配置操作で構築されており、高い柔軟性と推論速度を享受できる。
Hire-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
特に、Hire-MLP は ImageNet で83.4\% のトップ-1 の精度を達成しており、これはトランスフォーマーベースの従来のモデルと MLP ベースのモデルを上回っ、精度とスループットのトレードオフを改善している。
関連論文リスト
- R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - ReLU Fields: The Little Non-linearity That Could [62.228229880658404]
我々は,高忠実度結果の保持を可能にするグリッドベース表現に対する最小の変更点について検討する。
このようなアプローチが最先端技術と競合することを示します。
論文 参考訳(メタデータ) (2022-05-22T13:42:31Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。