論文の概要: MAXIM: Multi-Axis MLP for Image Processing
- arxiv url: http://arxiv.org/abs/2201.02973v1
- Date: Sun, 9 Jan 2022 09:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 17:40:41.726935
- Title: MAXIM: Multi-Axis MLP for Image Processing
- Title(参考訳): MAXIM:画像処理のためのマルチ軸MLP
- Authors: Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar,
Alan Bovik, Yinxiao Li
- Abstract要約: 本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 19.192826213493838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent progress on Transformers and multi-layer perceptron (MLP) models
provide new network architectural designs for computer vision tasks. Although
these models proved to be effective in many vision tasks such as image
recognition, there remain challenges in adapting them for low-level vision. The
inflexibility to support high-resolution images and limitations of local
attention are perhaps the main bottlenecks for using Transformers and MLPs in
image restoration. In this work we present a multi-axis MLP based architecture,
called MAXIM, that can serve as an efficient and flexible general-purpose
vision backbone for image processing tasks. MAXIM uses a UNet-shaped
hierarchical structure and supports long-range interactions enabled by
spatially-gated MLPs. Specifically, MAXIM contains two MLP-based building
blocks: a multi-axis gated MLP that allows for efficient and scalable spatial
mixing of local and global visual cues, and a cross-gating block, an
alternative to cross-attention, which accounts for cross-feature mutual
conditioning. Both these modules are exclusively based on MLPs, but also
benefit from being both global and `fully-convolutional', two properties that
are desirable for image processing. Our extensive experimental results show
that the proposed MAXIM model achieves state-of-the-art performance on more
than ten benchmarks across a range of image processing tasks, including
denoising, deblurring, deraining, dehazing, and enhancement while requiring
fewer or comparable numbers of parameters and FLOPs than competitive models.
- Abstract(参考訳): トランスフォーマーと多層パーセプトロン(MLP)モデルの最近の進歩は、コンピュータビジョンタスクのための新しいネットワークアーキテクチャ設計を提供する。
これらのモデルは、画像認識などの多くの視覚タスクにおいて有効であることが証明されたが、低レベルの視覚に適応する上ではまだ課題がある。
高解像度画像をサポートする柔軟性の欠如と局所的注意の限界は、おそらく画像復元にトランスフォーマーとmlpを使用する主なボトルネックである。
本研究では,画像処理タスクにおいて,効率よく柔軟な汎用視覚バックボーンとして機能する,MAXIMと呼ばれるマルチ軸MLPアーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的にゲートされたMLPによって可能となる長距離相互作用をサポートする。
具体的には、MLPベースのビルディングブロックとして、局所的およびグローバルな視覚的手がかりの効率的でスケーラブルな空間混合を可能にする多軸ゲートMLPと、クロスアテンションに代わるクロスアテンションブロックがある。
どちらのモジュールもmlpのみに基づいているが、画像処理に望ましい2つの特性であるglobalと‘fully-convolutional’の両方のメリットがある。
広範な実験結果から,提案手法は,デノイジング,デブラリング,デヘイジング,デヘイジング,エンハンスメントなど,さまざまな画像処理タスクにおいて10以上のベンチマークで最先端のパフォーマンスを達成でき,かつ,競合モデルに比べてパラメータやフロップ数が少なくなることを示した。
関連論文リスト
- EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation [3.64388407705261]
医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
論文 参考訳(メタデータ) (2024-08-25T06:20:28Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - MM-UNet: A Mixed MLP Architecture for Improved Ophthalmic Image Segmentation [3.2846676620336632]
眼科画像分割は眼疾患の診断において重要な基礎となる。
トランスフォーマーベースのモデルはこれらの制限に対処するが、かなりの計算オーバーヘッドをもたらす。
本稿では,眼内画像分割に適したMixedモデルであるMM-UNetを紹介する。
論文 参考訳(メタデータ) (2024-08-16T08:34:50Z) - Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。
また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。
我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-08-04T13:55:58Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。