論文の概要: ZITS++: Image Inpainting by Improving the Incremental Transformer on
Structural Priors
- arxiv url: http://arxiv.org/abs/2210.05950v1
- Date: Wed, 12 Oct 2022 06:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:48:57.684057
- Title: ZITS++: Image Inpainting by Improving the Incremental Transformer on
Structural Priors
- Title(参考訳): ZITS++: 構造優先のインクリメンタルトランスの改善によるイメージインペイント
- Authors: Chenjie Cao, Qiaole Dong, Yanwei Fu
- Abstract要約: ゼロd残差加算に基づくインクリメンタルトランスの学習について,ZITS++を用いて検討する。
具体的には, 1つの劣化画像が与えられた場合, 低解像度で全体構造を復元するTransformer Structure Restorer (TSR) モジュールを提示する。
画像テクスチャの詳細をよく回復するために、フーリエCNNテクスチャ復元(FTR)モジュールを用いる。
- 参考スコア(独自算出の注目度): 38.014569953980754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The image inpainting task fills missing areas of a corrupted image. Despite
impressive results have been achieved recently, it is still challenging to
restore corrupted images with both vivid textures and reasonable structures.
Some previous methods only tackle regular textures while losing holistic
structures limited by receptive fields of Convolution Neural Networks (CNNs).
To this end, we study learning a Zero-initialized residual addition based
Incremental Transformer on Structural priors (ZITS++), an improved model over
our conference ZITS model. Specifically, given one corrupt image, we present
the Transformer Structure Restorer (TSR) module to restore holistic structural
priors at low image resolution, which are further upsampled by Simple Structure
Upsampler (SSU) module to higher image resolution. Further, to well recover
image texture details, we take the Fourier CNN Texture Restoration (FTR)
module, which has both the Fourier and large-kernel attention convolutions.
Typically, FTR can be independently pre-trained without image structural
priors. Furthermore, to enhance the FTR, the upsampled structural priors from
TSR are further processed by Structure Feature Encoder (SFE), and updating the
FTR by a novel incremental training strategy of Zero-initialized Residual
Addition (ZeroRA). Essentially, a new masking positional encoding is proposed
to encode the large irregular masks. Extensive experiments on various datasets
validate the efficacy of our model compared with other competitors. We also
conduct extensive ablation to compare and verify various priors for image
inpainting tasks.
- Abstract(参考訳): 画像塗布タスクは、破損した画像の欠落領域を埋める。
近年、印象的な成果が得られているが、鮮明なテクスチャと妥当な構造の両方で腐敗した画像を復元することは依然として困難である。
従来の手法では、畳み込みニューラルネットワーク(cnns)の受容場によって制限された全体構造を失う一方で、規則的なテクスチャのみを取り扱う。
そこで本研究では,zitsモデルよりも改良された構造前処理系(zits++)上で,ゼロ初期化残差付加型インクリメンタルトランスフォーマー(インクリメンタルトランスフォーマー)を学習する。
具体的には,1つの劣化画像が与えられた場合,トランスフォーマー構造復元器(tsr)モジュールを用いて,低解像度で全体構造前処理を復元し,さらにssu(simple structure upsampler)モジュールにより高分解能にアップサンプリングする。
さらに,画像テクスチャの細部をよく再現するために,フーリエCNNテクスチャ復元(FTR)モジュール(Fourier CNN Texture Restoration, FTR)を用いる。
一般的に、FTRは画像構造上の事前訓練なしで独立して事前訓練することができる。
さらに, ゼロ初期化残留付加(ZeroRA)の新たな漸進的トレーニング戦略により, TSRからのアップサンプリングされた構造前駆体をStructure Feature Encoder (SFE)によりさらに処理し, FTRを更新する。
基本的に、大きな不規則マスクを符号化するために、新しいマスク位置符号化法が提案されている。
各種データセットに対する大規模な実験は、他の競合相手と比較して、我々のモデルの有効性を検証する。
また,画像の塗装作業において,様々な先行課題の比較と検証を行う。
関連論文リスト
- How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Image Reconstruction using Enhanced Vision Transformer [0.08594140167290097]
画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。
モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
論文 参考訳(メタデータ) (2023-07-11T02:14:18Z) - High-Fidelity Image Inpainting with GAN Inversion [23.49170140410603]
本稿では,InvertFillと呼ばれる画像インペイントのための新しいGANインバージョンモデルを提案する。
エンコーダ内では、事前変調ネットワークがマルチスケール構造を利用して、より差別的なセマンティクスをスタイルベクトルにエンコードする。
忠実でフォトリアリスティックなイメージを再構築するために、シンプルだが効果的なSoft-update Mean Latentモジュールは、大規模な腐敗のために高忠実なテクスチャを合成する、より多様なドメイン内パターンをキャプチャするように設計されている。
論文 参考訳(メタデータ) (2022-08-25T03:39:24Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - Incremental Transformer Structure Enhanced Image Inpainting with Masking
Positional Encoding [38.014569953980754]
提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。
我々のモデルは、ゼロd残差加算により、他の事前学習した塗装モデルと効率的に統合することができる。
論文 参考訳(メタデータ) (2022-03-02T04:27:27Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Exploiting Deep Generative Prior for Versatile Image Restoration and
Manipulation [181.08127307338654]
本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。
深層生成前駆体(DGP)は、色、パッチ、解像度、様々な劣化した画像の欠落したセマンティクスを復元するための説得力のある結果を提供する。
論文 参考訳(メタデータ) (2020-03-30T17:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。