論文の概要: ActiveMLP: An MLP-like Architecture with Active Token Mixer
- arxiv url: http://arxiv.org/abs/2203.06108v1
- Date: Fri, 11 Mar 2022 17:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 14:00:22.651723
- Title: ActiveMLP: An MLP-like Architecture with Active Token Mixer
- Title(参考訳): ActiveMLP: Active Token Mixerを備えたMLPライクなアーキテクチャ
- Authors: Guoqiang Wei, Zhizheng Zhang, Cuiling Lan, Yan Lu, Zhibo Chen
- Abstract要約: 本稿では,コンピュータビジョンのための一般的なバックボーンであるActiveMLPを提案する。
我々は、グローバルな範囲の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込む、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
このように、トークンミキシングの空間範囲を拡大し、トークンミキシングの方法を変更する。
- 参考スコア(独自算出の注目度): 54.95923719553343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ActiveMLP, a general MLP-like backbone for computer
vision. The three existing dominant network families, i.e., CNNs, Transformers
and MLPs, differ from each other mainly in the ways to fuse contextual
information into a given token, leaving the design of more effective
token-mixing mechanisms at the core of backbone architecture development. In
ActiveMLP, we propose an innovative token-mixer, dubbed Active Token Mixer
(ATM), to actively incorporate contextual information from other tokens in the
global scope into the given one. This fundamental operator actively predicts
where to capture useful contexts and learns how to fuse the captured contexts
with the original information of the given token at channel levels. In this
way, the spatial range of token-mixing is expanded and the way of token-mixing
is reformed. With this design, ActiveMLP is endowed with the merits of global
receptive fields and more flexible content-adaptive information fusion.
Extensive experiments demonstrate that ActiveMLP is generally applicable and
comprehensively surpasses different families of SOTA vision backbones by a
clear margin on a broad range of vision tasks, including visual recognition and
dense prediction tasks. The code and models will be available at
https://github.com/microsoft/ActiveMLP.
- Abstract(参考訳): 本稿では,コンピュータビジョンのための汎用MLP型バックボーンであるActiveMLPを提案する。
既存の3つの支配的なネットワークファミリー、すなわちCNN、トランスフォーマー、MPPは、主にコンテキスト情報を特定のトークンに融合する方法で異なり、バックボーンアーキテクチャ開発の中心に、より効果的なトークン混合機構の設計を残している。
ActiveMLPでは、グローバルスコープ内の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込むために、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
この基本演算子は、有用なコンテキストをどこでキャプチャするかを積極的に予測し、取得したコンテキストをチャネルレベルで所定のトークンの元の情報と融合する方法を学ぶ。
このようにして、トークン混合の空間範囲を拡大し、トークン混合の方法を変更する。
この設計により、activemlpはグローバル受容フィールドとより柔軟なコンテンツ適応情報融合のメリットを享受できる。
広範囲な実験により、ActiveMLPは一般的に適用可能であり、視覚認識や密集予測タスクを含む幅広い視覚タスクにおいて、SOTA視覚バックボーンの異なるファミリーを明確なマージンで包括的に超えることが示されている。
コードとモデルはhttps://github.com/microsoft/ActiveMLP.comで入手できる。
関連論文リスト
- QbyE-MLPMixer: Query-by-Example Open-Vocabulary Keyword Spotting using
MLPMixer [10.503972720941693]
現在のキーワードスポッティングシステムは、通常、大量の事前定義されたキーワードで訓練される。
本稿では,Mixerモデルアーキテクチャに基づく純粋語彙ニューラルネットワークを提案する。
提案モデルでは,ベースラインモデルと比較してパラメータやMACが小さい。
論文 参考訳(メタデータ) (2022-06-23T18:18:44Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。