論文の概要: Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE
- arxiv url: http://arxiv.org/abs/2103.10022v1
- Date: Thu, 18 Mar 2021 05:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:03:08.076501
- Title: Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE
- Title(参考訳): 階層型VQ-VAEを用いた画像インペインティングのための横構造生成
- Authors: Jialun Peng, Dong Liu, Songcen Xu, Houqiang Li
- Abstract要約: 本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
- 参考スコア(独自算出の注目度): 74.29384873537587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an incomplete image without additional constraint, image inpainting
natively allows for multiple solutions as long as they appear plausible.
Recently, multiplesolution inpainting methods have been proposed and shown the
potential of generating diverse results. However, these methods have difficulty
in ensuring the quality of each solution, e.g. they produce distorted structure
and/or blurry texture. We propose a two-stage model for diverse inpainting,
where the first stage generates multiple coarse results each of which has a
different structure, and the second stage refines each coarse result separately
by augmenting texture. The proposed model is inspired by the hierarchical
vector quantized variational auto-encoder (VQ-VAE), whose hierarchical
architecture isentangles structural and textural information. In addition, the
vector quantization in VQVAE enables autoregressive modeling of the discrete
distribution over the structural information. Sampling from the distribution
can easily generate diverse and high-quality structures, making up the first
stage of our model. In the second stage, we propose a structural attention
module inside the texture generation network, where the module utilizes the
structural information to capture distant correlations. We further reuse the
VQ-VAE to calculate two feature losses, which help improve structure coherence
and texture realism, respectively. Experimental results on CelebA-HQ, Places2,
and ImageNet datasets show that our method not only enhances the diversity of
the inpainting solutions but also improves the visual quality of the generated
multiple images. Code and models are available at:
https://github.com/USTC-JialunPeng/Diverse-Structure-Inpainting.
- Abstract(参考訳): 追加の制約を伴わない不完全なイメージが与えられた場合、画像の塗装は、可視性のあるように見える限り、ネイティブに複数のソリューションを可能にする。
近年,多重解法が提案され,多様な結果を生み出す可能性が示唆されている。
しかし、これらの方法は、例えば、各解の品質を保証するのに困難である。
歪んだ構造やぼやけたテクスチャを生み出します
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する多彩な塗装用2段階モデルを提案する。
提案手法は階層型ベクトル量子化変分自動エンコーダ (VQ-VAE) に着想を得たものである。
さらに、VQVAEにおけるベクトル量子化は、構造情報上の離散分布の自己回帰モデリングを可能にする。
分布からのサンプリングは多様で高品質な構造を容易に生成することができ、モデルの第一段階を構成する。
第2段階では,テクスチャ生成ネットワーク内の構造的注意モジュールを提案する。
さらに、VQ-VAEを再利用して2つの特徴損失を計算し、構造コヒーレンスとテクスチャリアリズムを改善する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布液の多様性を向上するだけでなく,生成した複数の画像の視覚的品質を向上させる。
コードとモデルは、https://github.com/USTC-JialunPeng/Diverse-Structure-Inpaintingで入手できる。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - A Structure-Guided Diffusion Model for Large-Hole Image Completion [85.61681358977266]
画像中の大きな穴を埋める構造誘導拡散モデルを開発した。
本手法は,最先端の手法と比較して,優れた,あるいは同等の視覚的品質を実現する。
論文 参考訳(メタデータ) (2022-11-18T18:59:01Z) - Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand [28.32208483559088]
インペイントアルゴリズムの性能は、生成された構造やテクスチャによってよりよく判断できると主張している。
本稿では,2つの設計の利点を組み合わせた新しい塗装ネットワークを提案する。
本モデルは,構造生成と繰り返しテクスチャ合成の両面において,最先端の性能に匹敵する視覚的品質を実現する。
論文 参考訳(メタデータ) (2022-08-05T20:42:13Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - Image Inpainting via Conditional Texture and Structure Dual Generation [26.97159780261334]
本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構築をモデル化した, 画像インペイントのための新しい2ストリームネットワークを提案する。
グローバルな一貫性を高めるため、双方向Gated Feature Fusion (Bi-GFF)モジュールは構造情報とテクスチャ情報を交換・結合するように設計されている。
CelebA、Paris StreetView、Places2データセットの実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-08-22T15:44:37Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Efficient and Model-Based Infrared and Visible Image Fusion Via
Algorithm Unrolling [24.83209572888164]
赤外線および可視画像融合(IVIF)は、赤外線画像からの熱放射情報を保持する画像と、可視画像からテクスチャの詳細を取得することを期待している。
従来のCNNベースのIVIFモデルの欠点を克服するために,モデルベース畳み込みニューラルネットワーク(CNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-12T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。