論文の概要: Incremental Transformer Structure Enhanced Image Inpainting with Masking
Positional Encoding
- arxiv url: http://arxiv.org/abs/2203.00867v1
- Date: Wed, 2 Mar 2022 04:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 04:56:26.772278
- Title: Incremental Transformer Structure Enhanced Image Inpainting with Masking
Positional Encoding
- Title(参考訳): マスキング位置エンコーディングによる増分変圧器構造強調画像インペインティング
- Authors: Qiaole Dong, Chenjie Cao, Yanwei Fu
- Abstract要約: 提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。
我々のモデルは、ゼロd残差加算により、他の事前学習した塗装モデルと効率的に統合することができる。
- 参考スコア(独自算出の注目度): 38.014569953980754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image inpainting has made significant advances in recent years. However, it
is still challenging to recover corrupted images with both vivid textures and
reasonable structures. Some specific methods only tackle regular textures while
losing holistic structures due to the limited receptive fields of convolutional
neural networks (CNNs). On the other hand, attention-based models can learn
better long-range dependency for the structure recovery, but they are limited
by the heavy computation for inference with large image sizes. To address these
issues, we propose to leverage an additional structure restorer to facilitate
the image inpainting incrementally. The proposed model restores holistic image
structures with a powerful attention-based transformer model in a fixed
low-resolution sketch space. Such a grayscale space is easy to be upsampled to
larger scales to convey correct structural information. Our structure restorer
can be integrated with other pretrained inpainting models efficiently with the
zero-initialized residual addition. Furthermore, a masking positional encoding
strategy is utilized to improve the performance with large irregular masks.
Extensive experiments on various datasets validate the efficacy of our model
compared with other competitors. Our codes are released in
https://github.com/DQiaole/ZITS_inpainting.
- Abstract(参考訳): 画像の塗装は近年大きな進歩を遂げている。
しかし、鮮明なテクスチャと妥当な構造の両方で劣化した画像を復元することは依然として困難である。
いくつかの特定の手法は、畳み込みニューラルネットワーク(CNN)の受容領域が限られているため、全体構造を失いながら、通常のテクスチャにのみ取り組む。
一方、注意に基づくモデルは、構造回復のための長距離依存性をよりよく学習するが、大きな画像サイズを持つ推論のための重い計算によって制限される。
これらの問題に対処するために,画像のインライン化を容易にする構造復元器の追加を提案する。
提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。
このようなグレースケール空間は、より大きなスケールにアップサンプリングして、正しい構造情報を伝えるのが容易である。
構造復元器は他の事前学習したインペインティングモデルとゼロ初期化残差付加と効率的に統合できる。
また、マスキング位置符号化戦略を利用して、大きな不規則マスクによる性能向上を図る。
各種データセットに対する大規模な実験は、他の競合相手と比較して、我々のモデルの有効性を検証する。
私たちのコードはhttps://github.com/dqiaole/zits_inpaintingでリリースされています。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - ZITS++: Image Inpainting by Improving the Incremental Transformer on
Structural Priors [38.014569953980754]
ゼロd残差加算に基づくインクリメンタルトランスの学習について,ZITS++を用いて検討する。
具体的には, 1つの劣化画像が与えられた場合, 低解像度で全体構造を復元するTransformer Structure Restorer (TSR) モジュールを提示する。
また, インペイントにおける様々な画像先行の影響について検討し, 高分解能画像インペイントへの利用方法について検討する。
論文 参考訳(メタデータ) (2022-10-12T06:33:47Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Pyramid Attention Networks for Image Restoration [124.34970277136061]
自己相似性(Self-similarity)とは、画像復元アルゴリズムで広く使われる画像を指す。
近年の深層畳み込みニューラルネットワークによる画像復元手法は, 自己相似性を十分に活用していない。
画像復元のための新しいピラミッドアテンションモジュールを提案し,マルチスケール特徴ピラミッドから長距離特徴対応をキャプチャする。
論文 参考訳(メタデータ) (2020-04-28T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。