論文の概要: MAXIM: Multi-Axis MLP for Image Processing
- arxiv url: http://arxiv.org/abs/2201.02973v1
- Date: Sun, 9 Jan 2022 09:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 17:40:41.726935
- Title: MAXIM: Multi-Axis MLP for Image Processing
- Title(参考訳): MAXIM:画像処理のためのマルチ軸MLP
- Authors: Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar,
Alan Bovik, Yinxiao Li
- Abstract要約: 本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 19.192826213493838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent progress on Transformers and multi-layer perceptron (MLP) models
provide new network architectural designs for computer vision tasks. Although
these models proved to be effective in many vision tasks such as image
recognition, there remain challenges in adapting them for low-level vision. The
inflexibility to support high-resolution images and limitations of local
attention are perhaps the main bottlenecks for using Transformers and MLPs in
image restoration. In this work we present a multi-axis MLP based architecture,
called MAXIM, that can serve as an efficient and flexible general-purpose
vision backbone for image processing tasks. MAXIM uses a UNet-shaped
hierarchical structure and supports long-range interactions enabled by
spatially-gated MLPs. Specifically, MAXIM contains two MLP-based building
blocks: a multi-axis gated MLP that allows for efficient and scalable spatial
mixing of local and global visual cues, and a cross-gating block, an
alternative to cross-attention, which accounts for cross-feature mutual
conditioning. Both these modules are exclusively based on MLPs, but also
benefit from being both global and `fully-convolutional', two properties that
are desirable for image processing. Our extensive experimental results show
that the proposed MAXIM model achieves state-of-the-art performance on more
than ten benchmarks across a range of image processing tasks, including
denoising, deblurring, deraining, dehazing, and enhancement while requiring
fewer or comparable numbers of parameters and FLOPs than competitive models.
- Abstract(参考訳): トランスフォーマーと多層パーセプトロン(MLP)モデルの最近の進歩は、コンピュータビジョンタスクのための新しいネットワークアーキテクチャ設計を提供する。
これらのモデルは、画像認識などの多くの視覚タスクにおいて有効であることが証明されたが、低レベルの視覚に適応する上ではまだ課題がある。
高解像度画像をサポートする柔軟性の欠如と局所的注意の限界は、おそらく画像復元にトランスフォーマーとmlpを使用する主なボトルネックである。
本研究では,画像処理タスクにおいて,効率よく柔軟な汎用視覚バックボーンとして機能する,MAXIMと呼ばれるマルチ軸MLPアーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的にゲートされたMLPによって可能となる長距離相互作用をサポートする。
具体的には、MLPベースのビルディングブロックとして、局所的およびグローバルな視覚的手がかりの効率的でスケーラブルな空間混合を可能にする多軸ゲートMLPと、クロスアテンションに代わるクロスアテンションブロックがある。
どちらのモジュールもmlpのみに基づいているが、画像処理に望ましい2つの特性であるglobalと‘fully-convolutional’の両方のメリットがある。
広範な実験結果から,提案手法は,デノイジング,デブラリング,デヘイジング,デヘイジング,エンハンスメントなど,さまざまな画像処理タスクにおいて10以上のベンチマークで最先端のパフォーマンスを達成でき,かつ,競合モデルに比べてパラメータやフロップ数が少なくなることを示した。
関連論文リスト
- X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-Concatenation [72.31517616233695]
Shifted-Pillars-Concatenation (SPC)モジュールは、より優れたローカルモデリングパワーとパフォーマンス向上を提供する。
我々は、SMLPNetのハイブリッドモデルにおいて、畳み込み層をSPCモジュールに置き換えることで、Caterpillarと呼ばれる純粋なMLPアーキテクチャを構築します。
論文 参考訳(メタデータ) (2023-05-28T06:19:36Z) - BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - Transformer Vs. MLP-Mixer Exponential Expressive Gap For NLP Problems [8.486025595883117]
複数入力間の依存関係のモデリングにおけるmlpアーキテクチャの表現力を同時に解析する。
注意とmlpに基づくメカニズムの間には指数的なギャップがある。
以上の結果から,NLP問題においてmlpが注意に基づくメカニズムと競合することができないという理論的理由が示唆された。
論文 参考訳(メタデータ) (2022-08-17T09:59:22Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image
Translation [0.0]
そこで本研究では,MixerGANという画像間翻訳モデルを提案する。
そこで,MixerGANは,従来の畳み込み法と比較して,競合的な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-28T21:12:52Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。