論文の概要: Aggregated Contextual Transformations for High-Resolution Image
Inpainting
- arxiv url: http://arxiv.org/abs/2104.01431v1
- Date: Sat, 3 Apr 2021 15:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:39:02.203119
- Title: Aggregated Contextual Transformations for High-Resolution Image
Inpainting
- Title(参考訳): 高分解能画像処理のための集合的文脈変換
- Authors: Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo
- Abstract要約: 画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
- 参考スコア(独自算出の注目度): 57.241749273816374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art image inpainting approaches can suffer from generating
distorted structures and blurry textures in high-resolution images (e.g.,
512x512). The challenges mainly drive from (1) image content reasoning from
distant contexts, and (2) fine-grained texture synthesis for a large missing
region. To overcome these two challenges, we propose an enhanced GAN-based
model, named Aggregated COntextual-Transformation GAN (AOT-GAN), for
high-resolution image inpainting. Specifically, to enhance context reasoning,
we construct the generator of AOT-GAN by stacking multiple layers of a proposed
AOT block. The AOT blocks aggregate contextual transformations from various
receptive fields, allowing to capture both informative distant image contexts
and rich patterns of interest for context reasoning. For improving texture
synthesis, we enhance the discriminator of AOT-GAN by training it with a
tailored mask-prediction task. Such a training objective forces the
discriminator to distinguish the detailed appearances of real and synthesized
patches, and in turn, facilitates the generator to synthesize clear textures.
Extensive comparisons on Places2, the most challenging benchmark with 1.8
million high-resolution images of 365 complex scenes, show that our model
outperforms the state-of-the-art by a significant margin in terms of FID with
38.60% relative improvement. A user study including more than 30 subjects
further validates the superiority of AOT-GAN. We further evaluate the proposed
AOT-GAN in practical applications, e.g., logo removal, face editing, and object
removal. Results show that our model achieves promising completions in the real
world. We release code and models in
https://github.com/researchmm/AOT-GAN-for-Inpainting.
- Abstract(参考訳): 最先端のイメージインペインティングアプローチは、高解像度画像(例えば512x512)で歪んだ構造やぼやけたテクスチャの生成に苦しむ可能性がある。
課題は,(1)遠い文脈から推定した画像の内容から,(2)大きな欠損領域に対するきめ細かいテクスチャ合成へと導かれる。
これら2つの課題を克服するために,高解像度画像インペイントのためのAggregated Contextual-Transformation GAN (AOT-GAN) と呼ばれる拡張GANモデルを提案する。
具体的には、コンテキスト推論を強化するために、提案するAOTブロックの複数のレイヤを積み重ねることで、AOT-GANのジェネレータを構築する。
AOTは、様々な受容領域からのコンテキスト変換をブロックし、情報的な遠方の画像コンテキストと、コンテキスト推論のための豊富な関心パターンの両方をキャプチャする。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
このような訓練対象は、判別器に実際のパッチと合成パッチの詳細な外観を区別させ、その結果、生成元が透明なテクスチャを合成するのを促進させる。
最も難しい365の複雑なシーンの高解像度画像とのベンチマークであるPlaces2の大規模な比較では、我々のモデルは38.60%の相対的な改善によるFIDの差で最先端よりも優れていた。
30人以上の被験者を含むユーザスタディは、AOT-GANの優位性をさらに検証する。
さらに,提案するaot-ganを,ロゴ除去,顔編集,オブジェクト除去など,実用的な用途で評価する。
その結果,本モデルは実世界で有望な完成を達成できた。
コードとモデルをhttps://github.com/researchmm/AOT-GAN-for-Inpaintingでリリースします。
関連論文リスト
- DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - RSINet: Inpainting Remotely Sensed Images Using Triple GAN Framework [13.613245876782367]
本稿では,エッジ,色,テクスチャなどの画像の各側面に個別に焦点をあてる新しい塗装法を提案する。
個々のGANには、スペクトルと空間的特徴を明示的に抽出するアテンション機構も組み込まれている。
キャンバス上の2つのよく知られたリモートセンシングデータセット、Open Cities AIとEarthで、当社のモデルと過去の技術モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-12T05:19:37Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE [74.29384873537587]
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
論文 参考訳(メタデータ) (2021-03-18T05:10:49Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。