論文の概要: Text2Layer: Layered Image Generation using Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2307.09781v1
- Date: Wed, 19 Jul 2023 06:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:19:26.258008
- Title: Text2Layer: Layered Image Generation using Latent Diffusion Model
- Title(参考訳): Text2Layer:潜在拡散モデルを用いた階層画像生成
- Authors: Xinyang Zhang, Wentian Zhao, Xin Lu, Jeff Chien
- Abstract要約: 階層化画像生成の観点から階層化画像を生成することを提案する。
階層画像生成を実現するために,階層画像の再構成が可能なオートエンコーダを訓練する。
実験結果から,提案手法は高品質な階層画像を生成することができることがわかった。
- 参考スコア(独自算出の注目度): 12.902259486204898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layer compositing is one of the most popular image editing workflows among
both amateurs and professionals. Motivated by the success of diffusion models,
we explore layer compositing from a layered image generation perspective.
Instead of generating an image, we propose to generate background, foreground,
layer mask, and the composed image simultaneously. To achieve layered image
generation, we train an autoencoder that is able to reconstruct layered images
and train diffusion models on the latent representation. One benefit of the
proposed problem is to enable better compositing workflows in addition to the
high-quality image output. Another benefit is producing higher-quality layer
masks compared to masks produced by a separate step of image segmentation.
Experimental results show that the proposed method is able to generate
high-quality layered images and initiates a benchmark for future work.
- Abstract(参考訳): レイヤー合成は、アマチュアとプロの両方で最も人気のある画像編集ワークフローの1つである。
拡散モデルの成功に触発されて、層状画像生成の観点から合成する層を探索する。
画像を生成する代わりに,背景,前景,レイヤマスク,合成画像を同時に生成することを提案する。
階層化画像生成を実現するために,階層化画像の再構成と潜在表現に基づく拡散モデルのトレーニングが可能なオートエンコーダを訓練する。
提案した問題の1つの利点は、高品質な画像出力に加えて、より良い合成ワークフローを実現することである。
もう1つの利点は、イメージセグメンテーションの別々のステップによって生成されるマスクと比較して、高品質なレイヤーマスクを作成することである。
実験の結果,提案手法は高品質な階層化画像を生成することができ,今後の作業のためのベンチマークを行うことができることがわかった。
関連論文リスト
- BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - V-LinkNet: Learning Contextual Inpainting Across Latent Space of
Generative Adversarial Network [7.5089719291325325]
V-LinkNetクロススペース学習戦略ネットワークを提案する。
同一面と同一面の異なる面と同一面の異なる面の塗装性能を比較した。
この結果は,CelebA-HQで標準プロトコルを用いて評価した場合に,技術状況を上回るものとなる。
論文 参考訳(メタデータ) (2022-01-02T09:14:23Z) - Structure First Detail Next: Image Inpainting with Pyramid Generator [26.94101909283021]
いくつかのサブジェネレータを積み重ねてピラミッドジェネレータを構築することを提案する。
低層サブジェネレータは画像構造の復元に重点を置いており、高層サブジェネレータは画像の詳細を強調する。
我々の手法は、徐々に穴の大きさを拡大し、大きな穴の画像の復元を可能にする学習手法を持っている。
論文 参考訳(メタデータ) (2021-06-16T16:00:16Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。