Fugu-MT 論文翻訳(概要): MAXIM: Multi-Axis MLP for Image Processing

論文の概要: MAXIM: Multi-Axis MLP for Image Processing

arxiv url: http://arxiv.org/abs/2201.02973v1
Date: Sun, 9 Jan 2022 09:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-11 17:40:41.726935
Title: MAXIM: Multi-Axis MLP for Image Processing
Title（参考訳）: MAXIM:画像処理のためのマルチ軸MLP
Authors: Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li
Abstract要約: 本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。 MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
参考スコア（独自算出の注目度）: 19.192826213493838
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent progress on Transformers and multi-layer perceptron (MLP) models provide new network architectural designs for computer vision tasks. Although these models proved to be effective in many vision tasks such as image recognition, there remain challenges in adapting them for low-level vision. The inflexibility to support high-resolution images and limitations of local attention are perhaps the main bottlenecks for using Transformers and MLPs in image restoration. In this work we present a multi-axis MLP based architecture, called MAXIM, that can serve as an efficient and flexible general-purpose vision backbone for image processing tasks. MAXIM uses a UNet-shaped hierarchical structure and supports long-range interactions enabled by spatially-gated MLPs. Specifically, MAXIM contains two MLP-based building blocks: a multi-axis gated MLP that allows for efficient and scalable spatial mixing of local and global visual cues, and a cross-gating block, an alternative to cross-attention, which accounts for cross-feature mutual conditioning. Both these modules are exclusively based on MLPs, but also benefit from being both global and `fully-convolutional', two properties that are desirable for image processing. Our extensive experimental results show that the proposed MAXIM model achieves state-of-the-art performance on more than ten benchmarks across a range of image processing tasks, including denoising, deblurring, deraining, dehazing, and enhancement while requiring fewer or comparable numbers of parameters and FLOPs than competitive models.
Abstract（参考訳）: トランスフォーマーと多層パーセプトロン(MLP)モデルの最近の進歩は、コンピュータビジョンタスクのための新しいネットワークアーキテクチャ設計を提供する。これらのモデルは、画像認識などの多くの視覚タスクにおいて有効であることが証明されたが、低レベルの視覚に適応する上ではまだ課題がある。高解像度画像をサポートする柔軟性の欠如と局所的注意の限界は、おそらく画像復元にトランスフォーマーとmlpを使用する主なボトルネックである。本研究では,画像処理タスクにおいて,効率よく柔軟な汎用視覚バックボーンとして機能する,MAXIMと呼ばれるマルチ軸MLPアーキテクチャを提案する。 MAXIMはUNet型の階層構造を使用し、空間的にゲートされたMLPによって可能となる長距離相互作用をサポートする。具体的には、MLPベースのビルディングブロックとして、局所的およびグローバルな視覚的手がかりの効率的でスケーラブルな空間混合を可能にする多軸ゲートMLPと、クロスアテンションに代わるクロスアテンションブロックがある。どちらのモジュールもmlpのみに基づいているが、画像処理に望ましい2つの特性であるglobalと‘fully-convolutional’の両方のメリットがある。広範な実験結果から,提案手法は,デノイジング,デブラリング,デヘイジング,デヘイジング,エンハンスメントなど,さまざまな画像処理タスクにおいて10以上のベンチマークで最先端のパフォーマンスを達成でき,かつ,競合モデルに比べてパラメータやフロップ数が少なくなることを示した。

関連論文リスト

Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-04-10T16:54:28Z)
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文参考訳（メタデータ） (2024-10-08T11:41:55Z)
MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation [3.64388407705261]
医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
論文参考訳（メタデータ） (2024-08-25T06:20:28Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
MM-UNet: A Mixed MLP Architecture for Improved Ophthalmic Image Segmentation [3.2846676620336632]
眼科画像分割は眼疾患の診断において重要な基礎となる。トランスフォーマーベースのモデルはこれらの制限に対処するが、かなりの計算オーバーヘッドをもたらす。本稿では,眼内画像分割に適したMixedモデルであるMM-UNetを紹介する。
論文参考訳（メタデータ） (2024-08-16T08:34:50Z)
Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文参考訳（メタデータ） (2024-08-04T13:55:58Z)
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文参考訳（メタデータ） (2024-07-23T06:02:30Z)
X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。 X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。 X-MLPは10のベンチマークデータセットでテストされている。
論文参考訳（メタデータ） (2023-07-02T15:20:25Z)
MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-29T06:36:17Z)
An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文参考訳（メタデータ） (2021-11-24T06:25:49Z)
MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。 Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文参考訳（メタデータ） (2021-05-04T16:17:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。