論文の概要: An Image Patch is a Wave: Phase-Aware Vision MLP
- arxiv url: http://arxiv.org/abs/2111.12294v2
- Date: Thu, 25 Nov 2021 02:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 12:43:53.169812
- Title: An Image Patch is a Wave: Phase-Aware Vision MLP
- Title(参考訳): イメージパッチは波です:位相認識ビジョンmlp
- Authors: Yehui Tang, Kai Han, Jianyuan Guo, Chang Xu, Yanxi Li, Chao Xu, Yunhe
Wang
- Abstract要約: マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 54.104040163690364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from traditional convolutional neural network (CNN) and vision
transformer, the multilayer perceptron (MLP) is a new kind of vision model with
extremely simple architecture that only stacked by fully-connected layers. An
input image of vision MLP is usually split into multiple tokens (patches),
while the existing MLP models directly aggregate them with fixed weights,
neglecting the varying semantic information of tokens from different images. To
dynamically aggregate tokens, we propose to represent each token as a wave
function with two parts, amplitude and phase. Amplitude is the original feature
and the phase term is a complex value changing according to the semantic
contents of input images. Introducing the phase term can dynamically modulate
the relationship between tokens and fixed weights in MLP. Based on the
wave-like token representation, we establish a novel Wave-MLP architecture for
vision tasks. Extensive experiments demonstrate that the proposed Wave-MLP is
superior to the state-of-the-art MLP architectures on various vision tasks such
as image classification, object detection and semantic segmentation.
- Abstract(参考訳): 従来の畳み込みニューラルネットワーク(CNN)や視覚変換器とは異なり、多層パーセプトロン(MLP)は、完全に接続された層でのみ積み重ねられる非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
視覚MLPの入力画像は、通常複数のトークン(パッチ)に分割されるが、既存のMLPモデルはそれらを固定重量で直接集約し、異なる画像からのトークンの様々な意味情報を無視する。
トークンを動的に集約するために,各トークンを振幅と位相の2つの部分からなる波動関数として表現する。
振幅は元の特徴であり、位相項は入力画像の意味的内容に応じて変化する複素値である。
位相項の導入は、MLPにおけるトークンと固定重みの関係を動的に変調することができる。
wave-likeトークン表現に基づいて、視覚タスクのための新しいwave-mlpアーキテクチャを確立する。
画像分類やオブジェクト検出,セマンティックセグメンテーションといった様々なビジョンタスクにおいて,提案するWave-MLPは最先端のMLPアーキテクチャよりも優れていることを示す。
関連論文リスト
- MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - ActiveMLP: An MLP-like Architecture with Active Token Mixer [54.95923719553343]
本稿では,コンピュータビジョンのための一般的なバックボーンであるActiveMLPを提案する。
我々は、グローバルな範囲の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込む、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
このように、トークンミキシングの空間範囲を拡大し、トークンミキシングの方法を変更する。
論文 参考訳(メタデータ) (2022-03-11T17:29:54Z) - Dynamic MLP for Fine-Grained Image Classification by Leveraging
Geographical and Temporal Information [19.99135128298929]
きめ細かい画像分類は、様々な種が類似した視覚的外観を共有する、難しいコンピュータビジョンタスクである。
これは、データ撮影の場所や日付などの追加情報を活用するのに役立つ。
本稿では,より高次元のマルチモーダル特徴と相互作用する画像表現の上に動的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-07T10:21:59Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - MAXIM: Multi-Axis MLP for Image Processing [19.192826213493838]
本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-01-09T09:59:32Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。