論文の概要: Image-to-Image MLP-mixer for Image Reconstruction
- arxiv url: http://arxiv.org/abs/2202.02018v1
- Date: Fri, 4 Feb 2022 08:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 22:39:15.521379
- Title: Image-to-Image MLP-mixer for Image Reconstruction
- Title(参考訳): 画像再構成のための画像間MLPミキサ
- Authors: Youssef Mansour, Kang Lin, Reinhard Heckel
- Abstract要約: マルチ層パーセプトロン(MLP)-ミキサをベースとした単純なネットワークは,畳み込みを伴わずに,最先端の画像再構成性能を実現する。
Image-to-image-mixerは、線形変換されたイメージパッチでのみ動作する画像に基づいている。
また、画像再構成のための視覚変換器や、BM3Dのような古典的な未訓練の手法よりも優れている。
- 参考スコア(独自算出の注目度): 23.036592718421105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks are highly effective tools for image reconstruction problems
such as denoising and compressive sensing. To date, neural networks for image
reconstruction are almost exclusively convolutional. The most popular
architecture is the U-Net, a convolutional network with a multi-resolution
architecture. In this work, we show that a simple network based on the
multi-layer perceptron (MLP)-mixer enables state-of-the art image
reconstruction performance without convolutions and without a multi-resolution
architecture, provided that the training set and the size of the network are
moderately large. Similar to the original MLP-mixer, the image-to-image
MLP-mixer is based exclusively on MLPs operating on linearly-transformed image
patches. Contrary to the original MLP-mixer, we incorporate structure by
retaining the relative positions of the image patches. This imposes an
inductive bias towards natural images which enables the image-to-image
MLP-mixer to learn to denoise images based on fewer examples than the original
MLP-mixer. Moreover, the image-to-image MLP-mixer requires fewer parameters to
achieve the same denoising performance than the U-Net and its parameters scale
linearly in the image resolution instead of quadratically as for the original
MLP-mixer. If trained on a moderate amount of examples for denoising, the
image-to-image MLP-mixer outperforms the U-Net by a slight margin. It also
outperforms the vision transformer tailored for image reconstruction and
classical un-trained methods such as BM3D, making it a very effective tool for
image reconstruction problems.
- Abstract(参考訳): ニューラルネットワークは、ノイズ除去や圧縮センシングなどの画像再構成問題に対して、非常に効果的なツールである。
現在、画像再構成のためのニューラルネットワークは、ほとんど完全に畳み込みである。
最も一般的なアーキテクチャは、マルチ解像度アーキテクチャを備えた畳み込みネットワークであるU-Netである。
本研究では,多層パーセプトロン(MLP)ミキサをベースとした単純なネットワークが,畳み込みやマルチレゾリューションアーキテクチャを使わずに,最先端の画像再構成性能を実現することを示し,トレーニングセットとネットワークサイズが適度に大きいことを仮定する。
オリジナルのMLPミキサーと同様に、画像から画像へのMLPミキサーは、線形変換されたイメージパッチで動作するMPPのみに基づいている。
元のMLPミキサーとは対照的に,画像パッチの相対位置を保って構造を組み込む。
これにより、自然画像に対して帰納的バイアスを課し、画像から画像へのMLPミキサーは、元のMLPミキサーよりも少ない例に基づいて画像の復調を学ぶことができる。
さらに、イメージ・ツー・イメージのMLPミキサーは、U-Netと同等の性能を達成するためにパラメータが少なく、元のMLPミキサーのように2次ではなく画像解像度で線形にスケールする。
イメージ・ツー・イメージのMLPミキサーは、デノイングの適度な量の例で訓練すれば、U-Netよりもわずかに優れる。
また、画像再構成のための視覚変換器やBM3Dのような古典的未訓練の手法よりも優れており、画像再構成問題に非常に効果的なツールである。
関連論文リスト
- A cross Transformer for image denoising [83.68175077524111]
直列ブロック(SB)、並列ブロック(PB)、残留ブロック(RB)を備えたクロストランスフォーマー(CTNet)を提案する。
CTNetは、実画像や合成画像のデノナイジングにおいて、一般的なデノナイジング法よりも優れている。
論文 参考訳(メタデータ) (2023-10-16T13:53:19Z) - Increasing diversity of omni-directional images generated from single
image using cGAN based on MLPMixer [0.0]
従来の手法は畳み込みニューラルネットワーク(CNN)に基づく生成的敵ネットワークに依存していた。
TheMixerは、長距離依存関係とコンテキスト情報をキャプチャするトランスフォーマーの自己アテンションの代替として提案されている。
その結果、メモリ消費と計算コストの削減により競合性能が達成された。
論文 参考訳(メタデータ) (2023-09-15T03:43:29Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation [70.00392682183515]
従来のクロスビュー画像変換法では、ターゲットビューで画像を生成することは困難である。
本稿では,カスケードクロスミキサー(CrossMLP)サブネットワークを用いた新しい2段階フレームワークを提案する。
最初の段階では、CrossMLPサブネットワークは、画像コードとセマンティックマップコードの間の潜時変換のキューを学習する。
第2段階では、ノイズの多いセマンティックラベル問題を緩和する改良されたピクセルレベルの損失を設計する。
論文 参考訳(メタデータ) (2021-10-19T18:03:30Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image
Translation [0.0]
そこで本研究では,MixerGANという画像間翻訳モデルを提案する。
そこで,MixerGANは,従来の畳み込み法と比較して,競合的な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-28T21:12:52Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。