論文の概要: A Structure-Guided Diffusion Model for Large-Hole Diverse Image
Completion
- arxiv url: http://arxiv.org/abs/2211.10437v1
- Date: Fri, 18 Nov 2022 18:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:18:14.633831
- Title: A Structure-Guided Diffusion Model for Large-Hole Diverse Image
Completion
- Title(参考訳): 大孔多彩画像補完のための構造誘導拡散モデル
- Authors: Daichi Horita, Jiaolong Yang, Dong Chen, Yuki Koyama, Kiyoharu Aizawa
- Abstract要約: 本研究では, 大規模多角化問題に対する構造誘導拡散モデル (SGDM) を提案する。
提案するSGDMは,拡散確率モデル (DM) である構造生成器とテクスチャ生成器から構成される。
本手法は,他の最先端手法と比較して,視覚的品質と多様性のトレードオフに匹敵する,あるいは優れたものであることを示す。
- 参考スコア(独自算出の注目度): 59.34223994908412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse image completion, a problem of generating various ways of filling
incomplete regions (i.e. holes) of an image, has made remarkable success.
However, managing input images with large holes is still a challenging problem
due to the corruption of semantically important structures. In this paper, we
tackle this problem by incorporating explicit structural guidance. We propose a
structure-guided diffusion model (SGDM) for the large-hole diverse completion
problem. Our proposed SGDM consists of a structure generator and a texture
generator, which are both diffusion probabilistic models (DMs). The structure
generator generates an edge image representing a plausible structure within the
holes, which is later used to guide the texture generation process. To jointly
train these two generators, we design a strategy that combines optimal Bayesian
denoising and a momentum framework. In addition to the quality improvement,
auxiliary edge images generated by the structure generator can be manually
edited to allow user-guided image editing. Our experiments using datasets of
faces (CelebA-HQ) and natural scenes (Places) show that our method achieves a
comparable or superior trade-off between visual quality and diversity compared
to other state-of-the-art methods.
- Abstract(参考訳): 多様な画像補完は、画像の不完全領域(すなわち穴)を様々な方法で埋める問題であり、顕著な成功を収めている。
しかし, 意味論的に重要な構造が損なわれているため, 入力画像を大きな穴で管理することは依然として難しい問題である。
本稿では,明示的な構造指導を取り入れてこの問題に取り組む。
本稿では,大孔多様補完問題に対する構造誘導拡散モデル(sgdm)を提案する。
提案するSGDMは,拡散確率モデル (DM) である構造生成器とテクスチャ生成器から構成される。
構造生成装置は、孔内の可塑性構造を表すエッジ画像を生成し、後にテクスチャ生成プロセスのガイドに使用される。
これら2つの発電機を共同で訓練するために, 最適なベイズ分布と運動量フレームワークを組み合わせた戦略を考案する。
品質改善に加えて、構造生成装置によって生成された補助エッジ画像を手作業で編集し、ユーザガイドの画像編集を可能にする。
顔のデータセット(celeba-hq)と自然のシーン(places)を用いた実験により,視覚品質と多様性のトレードオフが,他の最先端手法と同等あるいは優れた結果が得られることを示した。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Compressing Image-to-Image Translation GANs Using Local Density
Structures on Their Learned Manifold [69.33930972652594]
GAN(Generative Adversarial Networks)は、画像から画像への変換のための複雑なデータ分散のモデル化において、顕著な成功を収めている。
既存のGAN圧縮法は主に知識蒸留や畳み込み分類器の刈り取り技術に依存している。
学習多様体上の元のパラメータ重モデルの密度構造を保存するために,プルーンドモデルを明示的に促すことにより,新しいアプローチを提案する。
画像変換GANモデルであるPix2PixとCycleGANについて,様々なベンチマークデータセットとアーキテクチャを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-22T15:43:12Z) - Semantic Image Translation for Repairing the Texture Defects of Building
Models [16.764719266178655]
本稿では, ファサードテクスチャ画像の合成手法を提案する。
提案手法は,既存のテクスチャを欠いたファッケードに対して,テクスチャイメージを特定のスタイルで合成することも可能である。
論文 参考訳(メタデータ) (2023-03-30T14:38:53Z) - Contour Completion using Deep Structural Priors [1.7399355670260819]
本稿では、不連結な輪郭を完備化し、断片化された線と曲線を接続するフレームワークを提案する。
本稿では,輪郭のどの領域が除去されているかを知る必要のないモデルを提案する。
我々の研究は、深い構造的前提を用いて輪郭完成を達成するための堅牢なフレームワークを構築し、そのようなモデルをどのように実装するかを広範囲に調査する。
論文 参考訳(メタデータ) (2023-02-09T05:45:33Z) - Image Inpainting via Conditional Texture and Structure Dual Generation [26.97159780261334]
本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構築をモデル化した, 画像インペイントのための新しい2ストリームネットワークを提案する。
グローバルな一貫性を高めるため、双方向Gated Feature Fusion (Bi-GFF)モジュールは構造情報とテクスチャ情報を交換・結合するように設計されている。
CelebA、Paris StreetView、Places2データセットの実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-08-22T15:44:37Z) - Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE [74.29384873537587]
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
論文 参考訳(メタデータ) (2021-03-18T05:10:49Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。