Fugu-MT 論文翻訳(概要): ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors

論文の概要: ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors

arxiv url: http://arxiv.org/abs/2210.05950v3
Date: Wed, 24 May 2023 16:19:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 03:11:13.374836
Title: ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors
Title（参考訳）: ZITS++: 構造優先のインクリメンタルトランスの改善によるイメージインペイント
Authors: Chenjie Cao, Qiaole Dong, Yanwei Fu
Abstract要約: ゼロd残差加算に基づくインクリメンタルトランスの学習について,ZITS++を用いて検討する。具体的には, 1つの劣化画像が与えられた場合, 低解像度で全体構造を復元するTransformer Structure Restorer (TSR) モジュールを提示する。また, インペイントにおける様々な画像先行の影響について検討し, 高分解能画像インペイントへの利用方法について検討する。
参考スコア（独自算出の注目度）: 38.014569953980754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image inpainting involves filling missing areas of a corrupted image. Despite impressive results have been achieved recently, restoring images with both vivid textures and reasonable structures remains a significant challenge. Previous methods have primarily addressed regular textures while disregarding holistic structures due to the limited receptive fields of Convolutional Neural Networks (CNNs). To this end, we study learning a Zero-initialized residual addition based Incremental Transformer on Structural priors (ZITS++), an improved model upon our conference work, ZITS. Specifically, given one corrupt image, we present the Transformer Structure Restorer (TSR) module to restore holistic structural priors at low image resolution, which are further upsampled by Simple Structure Upsampler (SSU) module to higher image resolution. To recover image texture details, we use the Fourier CNN Texture Restoration (FTR) module, which is strengthened by Fourier and large-kernel attention convolutions. Furthermore, to enhance the FTR, the upsampled structural priors from TSR are further processed by Structure Feature Encoder (SFE) and optimized with the Zero-initialized Residual Addition (ZeroRA) incrementally. Besides, a new masking positional encoding is proposed to encode the large irregular masks. Compared with ZITS, ZITS++ improves the FTR's stability and inpainting ability with several techniques. More importantly, we comprehensively explore the effects of various image priors for inpainting and investigate how to utilize them to address high-resolution image inpainting with extensive experiments. This investigation is orthogonal to most inpainting approaches and can thus significantly benefit the community. Codes and models will be released in https://github.com/ewrfcas/ZITS-PlusPlus.
Abstract（参考訳）: 画像インペインティングは、腐敗した画像の欠落領域を埋めることを含む。最近は印象的な結果が得られたが、鮮やかなテクスチャと合理的な構造の両方でイメージを復元することは大きな課題である。従来の手法では、畳み込みニューラルネットワーク(cnns)の受容場が限られているため、全体構造を無視しながら規則的なテクスチャに主に取り組んだ。この目的のために,ゼロ初期化残余加算に基づくIncremental Transformer on Structure Priors (ZITS++) の学習について検討した。具体的には,1つの劣化画像が与えられた場合,トランスフォーマー構造復元器(tsr)モジュールを用いて,低解像度で全体構造前処理を復元し,さらにssu(simple structure upsampler)モジュールにより高分解能にアップサンプリングする。画像テクスチャの詳細を復元するために、フーリエCNNテクスチャ復元(FTR)モジュールを用いる。さらに、FTRを強化するために、TSRからのアップサンプリングされた構造先行を、Structure Feature Encoder (SFE)によりさらに処理し、ZeroRA(ZeroRA)を漸進的に最適化する。さらに、大きな不規則マスクを符号化するために、新しいマスク位置符号化法を提案する。 ZITSと比較すると、ZITS++はFTRの安定性と塗装能力をいくつかの技術で改善している。さらに,様々な画像プリエントの効果を包括的に検討し,高分解能画像インペイントへの対処法を広範囲な実験で検討した。この調査は、ほとんどの塗装アプローチと直交しており、コミュニティに多大な利益をもたらす可能性がある。コードとモデルはhttps://github.com/ewrfcas/ZITS-PlusPlus.comでリリースされる。

関連論文リスト

High-Fidelity Image Inpainting with Multimodal Guided GAN Inversion [15.202130790708747]
本稿では,画像インペイントのための新しいGANインバージョン手法MMInvertFillを提案する。 MMInvertFillは、主に事前変調のマルチモーダル誘導エンコーダと、F&W+遅延空間のGANジェネレータを含む。 MMInvertFillは他の最先端技術よりも質的に定量的に優れていることを示す。
論文参考訳（メタデータ） (2025-04-17T10:58:45Z)
SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-07-04T04:55:14Z)
How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文参考訳（メタデータ） (2024-03-15T14:23:12Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Image Reconstruction using Enhanced Vision Transformer [0.08594140167290097]
画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
論文参考訳（メタデータ） (2023-07-11T02:14:18Z)
High-Fidelity Image Inpainting with GAN Inversion [23.49170140410603]
本稿では,InvertFillと呼ばれる画像インペイントのための新しいGANインバージョンモデルを提案する。エンコーダ内では、事前変調ネットワークがマルチスケール構造を利用して、より差別的なセマンティクスをスタイルベクトルにエンコードする。忠実でフォトリアリスティックなイメージを再構築するために、シンプルだが効果的なSoft-update Mean Latentモジュールは、大規模な腐敗のために高忠実なテクスチャを合成する、より多様なドメイン内パターンをキャプチャするように設計されている。
論文参考訳（メタデータ） (2022-08-25T03:39:24Z)
HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文参考訳（メタデータ） (2022-03-19T05:09:34Z)
Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding [38.014569953980754]
提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。我々のモデルは、ゼロd残差加算により、他の事前学習した塗装モデルと効率的に統合することができる。
論文参考訳（メタデータ） (2022-03-02T04:27:27Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation [181.08127307338654]
本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。深層生成前駆体(DGP)は、色、パッチ、解像度、様々な劣化した画像の欠落したセマンティクスを復元するための説得力のある結果を提供する。
論文参考訳（メタデータ） (2020-03-30T17:45:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。