論文の概要: A Structure-Guided Diffusion Model for Large-Hole Image Completion
- arxiv url: http://arxiv.org/abs/2211.10437v2
- Date: Sat, 2 Sep 2023 14:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 07:13:25.040449
- Title: A Structure-Guided Diffusion Model for Large-Hole Image Completion
- Title(参考訳): 大孔像完成のための構造誘導拡散モデル
- Authors: Daichi Horita, Jiaolong Yang, Dong Chen, Yuki Koyama, Kiyoharu Aizawa,
Nicu Sebe
- Abstract要約: 画像中の大きな穴を埋める構造誘導拡散モデルを開発した。
本手法は,最先端の手法と比較して,優れた,あるいは同等の視覚的品質を実現する。
- 参考スコア(独自算出の注目度): 85.61681358977266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image completion techniques have made significant progress in filling missing
regions (i.e., holes) in images. However, large-hole completion remains
challenging due to limited structural information. In this paper, we address
this problem by integrating explicit structural guidance into diffusion-based
image completion, forming our structure-guided diffusion model (SGDM). It
consists of two cascaded diffusion probabilistic models: structure and texture
generators. The structure generator generates an edge image representing
plausible structures within the holes, which is then used for guiding the
texture generation process. To train both generators jointly, we devise a novel
strategy that leverages optimal Bayesian denoising, which denoises the output
of the structure generator in a single step and thus allows backpropagation.
Our diffusion-based approach enables a diversity of plausible completions,
while the editable edges allow for editing parts of an image. Our experiments
on natural scene (Places) and face (CelebA-HQ) datasets demonstrate that our
method achieves a superior or comparable visual quality compared to
state-of-the-art approaches. The code is available for research purposes at
https://github.com/UdonDa/Structure_Guided_Diffusion_Model.
- Abstract(参考訳): 画像補完技術は、画像の欠落領域(すなわち穴)を埋めることに大きな進歩を遂げた。
しかし、構造的な情報が少ないため、大きな穴の完成は難しいままである。
本稿では, 構造誘導型拡散モデル (SGDM) を構成するために, 明示的な構造ガイダンスを拡散に基づく画像補完に組み込むことにより, この問題に対処する。
これは2つのカスケード拡散確率モデル(構造とテクスチャジェネレータ)から構成される。
構造生成器は、穴内の実行可能な構造を表すエッジイメージを生成し、テクスチャ生成プロセスの誘導に使用する。
両ジェネレータを共同で訓練するために, 最適ベイズ分解を利用した新しい手法を考案し, 構造生成器の出力を1ステップで denoiseし, バックプロパゲーションを可能にする。
拡散ベースのアプローチは、画像の一部の編集を可能にする一方で、多彩な補完を可能にします。
自然シーン (Places) と顔 (CelebA-HQ) のデータセットを用いた実験により,本手法が最先端の手法に比べて優れた,あるいは同等の視覚的品質を実現することを示す。
コードはhttps://github.com/udonda/structure_guided_diffusion_modelで研究目的に利用できる。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Compressing Image-to-Image Translation GANs Using Local Density
Structures on Their Learned Manifold [69.33930972652594]
GAN(Generative Adversarial Networks)は、画像から画像への変換のための複雑なデータ分散のモデル化において、顕著な成功を収めている。
既存のGAN圧縮法は主に知識蒸留や畳み込み分類器の刈り取り技術に依存している。
学習多様体上の元のパラメータ重モデルの密度構造を保存するために,プルーンドモデルを明示的に促すことにより,新しいアプローチを提案する。
画像変換GANモデルであるPix2PixとCycleGANについて,様々なベンチマークデータセットとアーキテクチャを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-22T15:43:12Z) - Semantic Image Translation for Repairing the Texture Defects of Building
Models [16.764719266178655]
本稿では, ファサードテクスチャ画像の合成手法を提案する。
提案手法は,既存のテクスチャを欠いたファッケードに対して,テクスチャイメージを特定のスタイルで合成することも可能である。
論文 参考訳(メタデータ) (2023-03-30T14:38:53Z) - Contour Completion using Deep Structural Priors [1.7399355670260819]
本稿では、不連結な輪郭を完備化し、断片化された線と曲線を接続するフレームワークを提案する。
本稿では,輪郭のどの領域が除去されているかを知る必要のないモデルを提案する。
我々の研究は、深い構造的前提を用いて輪郭完成を達成するための堅牢なフレームワークを構築し、そのようなモデルをどのように実装するかを広範囲に調査する。
論文 参考訳(メタデータ) (2023-02-09T05:45:33Z) - Image Inpainting via Conditional Texture and Structure Dual Generation [26.97159780261334]
本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構築をモデル化した, 画像インペイントのための新しい2ストリームネットワークを提案する。
グローバルな一貫性を高めるため、双方向Gated Feature Fusion (Bi-GFF)モジュールは構造情報とテクスチャ情報を交換・結合するように設計されている。
CelebA、Paris StreetView、Places2データセットの実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-08-22T15:44:37Z) - Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE [74.29384873537587]
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
論文 参考訳(メタデータ) (2021-03-18T05:10:49Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。