論文の概要: Controllable Multi-domain Semantic Artwork Synthesis
- arxiv url: http://arxiv.org/abs/2308.10111v1
- Date: Sat, 19 Aug 2023 21:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:49:36.432674
- Title: Controllable Multi-domain Semantic Artwork Synthesis
- Title(参考訳): 制御可能なマルチドメイン意味芸術作品合成
- Authors: Yuantian Huang, Satoshi Iizuka, Edgar Simo-Serra, and Kazuhiro Fukui
- Abstract要約: 4つのドメインから4万のアートワークの画像と対応するセマンティックラベルマップを含むデータセットを提案する。
まずランドスケープ写真からセマンティックマップを抽出してデータセットを生成する。
そこで我々は,高品質なアートワークを生成するための条件付きジェネレーティブ・アドリアル・ネットワーク(GAN)アプローチを提案する。
- 参考スコア(独自算出の注目度): 17.536225601718687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel framework for multi-domain synthesis of artwork from
semantic layouts. One of the main limitations of this challenging task is the
lack of publicly available segmentation datasets for art synthesis. To address
this problem, we propose a dataset, which we call ArtSem, that contains 40,000
images of artwork from 4 different domains with their corresponding semantic
label maps. We generate the dataset by first extracting semantic maps from
landscape photography and then propose a conditional Generative Adversarial
Network (GAN)-based approach to generate high-quality artwork from the semantic
maps without necessitating paired training data. Furthermore, we propose an
artwork synthesis model that uses domain-dependent variational encoders for
high-quality multi-domain synthesis. The model is improved and complemented
with a simple but effective normalization method, based on normalizing both the
semantic and style jointly, which we call Spatially STyle-Adaptive
Normalization (SSTAN). In contrast to previous methods that only take semantic
layout as input, our model is able to learn a joint representation of both
style and semantic information, which leads to better generation quality for
synthesizing artistic images. Results indicate that our model learns to
separate the domains in the latent space, and thus, by identifying the
hyperplanes that separate the different domains, we can also perform
fine-grained control of the synthesized artwork. By combining our proposed
dataset and approach, we are able to generate user-controllable artwork that is
of higher quality than existing
- Abstract(参考訳): セマンティックレイアウトからアートワークのマルチドメイン合成のための新しいフレームワークを提案する。
この課題の大きな制限の1つは、アート合成のための公開セグメンテーションデータセットの欠如である。
この問題に対処するために,我々はartsemと呼ぶ4つの異なるドメインのアートワークの4万枚の画像と対応するセマンティックラベルマップを含むデータセットを提案する。
まず,ランドスケープ写真から意味地図を抽出し,次に条件付き生成逆ネットワーク(gan)を用いて,ペアトレーニングデータを必要とせず,意味地図から高品質なアートワークを生成する手法を提案する。
さらに,高品質なマルチドメイン合成のための領域依存変分エンコーダを用いたアート合成モデルを提案する。
このモデルは,SSTAN(Spatially Stayle-Adaptive Normalization)と呼ばれる,意味とスタイルを併用した,シンプルだが効果的な正規化法によって改善され,補完される。
セマンティクスレイアウトのみを入力として使用する従来の手法とは対照的に,モデルではスタイル情報とセマンティクス情報の結合表現を学習することが可能であり,それによって芸術的イメージの合成における生成品質が向上する。
その結果, 本モデルは潜在空間内の領域を分離することを学び, 異なる領域を分離する超平面を同定することで, 合成したアートワークの細粒度制御を行うことができる。
提案するデータセットとアプローチを組み合わせることで,既存のデータよりも高品質なユーザコントロール可能なアートワークを作成できる。
関連論文リスト
- Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。
クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。
セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文 参考訳(メタデータ) (2023-04-05T09:24:45Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z) - Learning Texture Invariant Representation for Domain Adaptation of
Semantic Segmentation [19.617821473205694]
合成データで訓練されたモデルが実際のデータに一般化することは困難である。
我々はスタイル伝達アルゴリズムを用いて合成画像のテクスチャを多様性する。
我々は、ターゲットテクスチャを直接監視するために、自己学習でモデルを微調整する。
論文 参考訳(メタデータ) (2020-03-02T13:11:54Z) - Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings [76.85673049332428]
画像とテキストの合同表現の学習は、画像キャプションのようないくつかの重要なドメイン横断タスクのバックボーンを形成する。
ドメイン間の共有情報とドメイン固有の情報を個別にモデル化する,新しい半教師付きフレームワークを提案する。
画像キャプションやテキスト・ツー・イメージ合成など,様々なタスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-02-16T19:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。