論文の概要: Referenceless User Controllable Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2306.10646v1
- Date: Sun, 18 Jun 2023 22:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:26:04.204305
- Title: Referenceless User Controllable Semantic Image Synthesis
- Title(参考訳): 参照なしユーザ制御可能なセマンティック画像合成
- Authors: Jonghyun Kim, Gen Li, Joongkyu Kim
- Abstract要約: ユーザ制御可能なセマンティック画像合成のためのモデルRUCGANを提案する。
提案するネットワークは,各セマンティックレイアウトにユーザ要求のスタイルとして色を注入することにより,参照不要なセマンティック画像合成を実現する。
- 参考スコア(独自算出の注目度): 12.496946762818395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent progress in semantic image synthesis, complete control over
image style remains a challenging problem. Existing methods require reference
images to feed style information into semantic layouts, which indicates that
the style is constrained by the given image. In this paper, we propose a model
named RUCGAN for user controllable semantic image synthesis, which utilizes a
singular color to represent the style of a specific semantic region. The
proposed network achieves reference-free semantic image synthesis by injecting
color as user-desired styles into each semantic layout, and is able to
synthesize semantic images with unusual colors. Extensive experimental results
on various challenging datasets show that the proposed method outperforms
existing methods, and we further provide an interactive UI to demonstrate the
advantage of our approach for style controllability.
- Abstract(参考訳): 近年のセマンティック画像合成の進歩にもかかわらず、画像スタイルの完全な制御は難しい問題である。
既存の手法では、スタイル情報をセマンティックレイアウトにフィードするために参照画像が必要であり、そのスタイルが与えられた画像によって制約されていることを示す。
本稿では,特定の意味領域のスタイルを表現するために特異色を利用するユーザ制御可能な意味画像合成のためのRUCGANというモデルを提案する。
提案するネットワークは,各セマンティックレイアウトにユーザ希望のスタイルとして色を注入することにより,参照不要なセマンティックイメージ合成を実現し,特異な色でセマンティックイメージを合成することができる。
様々な挑戦的データセットに対する大規模な実験結果から,提案手法は既存手法よりも優れており,我々はさらに,スタイル制御性に対するアプローチの利点を示すインタラクティブUIを提供する。
関連論文リスト
- Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。