論文の概要: Learning Prior Feature and Attention Enhanced Image Inpainting
- arxiv url: http://arxiv.org/abs/2208.01837v1
- Date: Wed, 3 Aug 2022 04:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:44:13.168792
- Title: Learning Prior Feature and Attention Enhanced Image Inpainting
- Title(参考訳): 事前特徴と注意力強化画像インペインティングの学習
- Authors: Chenjie Cao, Qiaole Dong, Yanwei Fu
- Abstract要約: 本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
- 参考スコア(独自算出の注目度): 38.014569953980754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent inpainting works have achieved impressive results by leveraging
Deep Neural Networks (DNNs) to model various prior information for image
restoration. Unfortunately, the performance of these methods is largely limited
by the representation ability of vanilla Convolutional Neural Networks (CNNs)
backbones.On the other hand, Vision Transformers (ViT) with self-supervised
pre-training have shown great potential for many visual recognition and object
detection tasks. A natural question is whether the inpainting task can be
greatly benefited from the ViT backbone? However, it is nontrivial to directly
replace the new backbones in inpainting networks, as the inpainting is an
inverse problem fundamentally different from the recognition tasks. To this
end, this paper incorporates the pre-training based Masked AutoEncoder (MAE)
into the inpainting model, which enjoys richer informative priors to enhance
the inpainting process. Moreover, we propose to use attention priors from MAE
to make the inpainting model learn more long-distance dependencies between
masked and unmasked regions. Sufficient ablations have been discussed about the
inpainting and the self-supervised pre-training models in this paper. Besides,
experiments on both Places2 and FFHQ demonstrate the effectiveness of our
proposed model. Codes and pre-trained models are released in
https://github.com/ewrfcas/MAE-FAR.
- Abstract(参考訳): 近年の多くの絵画作品は、ディープニューラルネットワーク(dnn)を利用して画像復元のための様々な事前情報をモデル化することで印象的な成果を上げている。
残念なことに、これらの手法の性能は、バニラ畳み込みニューラルネットワーク(CNN)バックボーンの表現能力によって大きく制限されており、一方、自己教師付き事前学習による視覚変換器(ViT)は、多くの視覚認識や物体検出タスクにおいて大きな可能性を示している。
自然な質問は、塗装タスクがvitバックボーンから大きな利益を得られるかどうかである。
しかし、塗装は認識タスクと根本的に異なる逆問題であるため、塗装ネットワークにおける新しいバックボーンを直接置き換えることは簡単ではない。
そこで本稿では,事前学習によるマスク付きオートエンコーダ(mae)をインペインティングモデルに組み込むことにより,インペインティングプロセスの向上を図る。
さらに,masked領域とunmasked領域の長距離依存性をより学習させるために,MAEの注意点を用いた手法を提案する。
本論文では, インペインティングと自己教師付き事前学習モデルについて十分なアブレーションが議論されている。
さらに,places2 と ffhq の両方で実験を行い,提案モデルの有効性を示した。
コードと事前訓練されたモデルはhttps://github.com/ewrfcas/MAE-FARで公開されている。
関連論文リスト
- BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Wavelet Prior Attention Learning in Axial Inpainting Network [35.06912946192495]
Axial Inpainting Network (WAIN) におけるウェーブレット事前注意学習モデルを提案する。
WPAは、マルチスケールの周波数領域における高レベルの特徴集約をガイドし、テキストアーティファクトを緩和する。
積み重ねられたATは、水平軸と垂直軸の低レベルの特徴とともに、合理的な特徴をモデル化するのに役立つ。
論文 参考訳(メタデータ) (2022-06-07T08:45:27Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
インペイントネットワークのための,新しい,効率的な自己教師型微調整アルゴリズムを提案する。
既存の自己相似パッチを用いて,事前学習した塗装ネットワークのパラメータを更新する。
公開されているベンチマークデータセット上で、最先端の塗装結果を得る。
論文 参考訳(メタデータ) (2021-10-25T11:38:51Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
本論文では,絵画ネットワークにおける自己監督型微調整アルゴリズムについて述べる。
入力画像内の既存の自己相似パッチを利用して,事前学習したネットワークのパラメータをアップグレードする。
公開ベンチマークデータセットで最先端のインペインティング結果を達成します。
論文 参考訳(メタデータ) (2021-02-16T10:59:28Z) - Deep Generative Model for Image Inpainting with Local Binary Pattern
Learning and Spatial Attention [28.807711307545112]
本稿では,LBP学習ネットワークと実際の塗布ネットワークを組み合わせることで,エンド・ツー・エンドの2段階(粗い)生成モデルを提案する。
CelebA-HQ、Places、Paris StreetViewといった公開データセットの実験では、我々のモデルは最先端の競合するアルゴリズムよりも優れた塗装結果を生成する。
論文 参考訳(メタデータ) (2020-09-02T12:59:28Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。