論文の概要: CoGS: Controllable Generation and Search from Sketch and Style
- arxiv url: http://arxiv.org/abs/2203.09554v1
- Date: Thu, 17 Mar 2022 18:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:14:43.549879
- Title: CoGS: Controllable Generation and Search from Sketch and Style
- Title(参考訳): CoGS: スケッチとスタイルによる制御可能な生成と検索
- Authors: Cusuh Ham, Gemma Canet Tarres, Tu Bui, James Hays, Zhe Lin, John
Collomosse
- Abstract要約: 画像のスタイル条件付きスケッチ駆動合成法であるCoGSを提案する。
CoGSは、与えられたスケッチされたオブジェクトの様々な外観可能性の探索を可能にする。
新たに作成したPseudosketchesデータセットの125のオブジェクトクラスをトレーニングしたモデルでは,セマンティックコンテンツや外観スタイルの多様さが実現可能であることを示す。
- 参考スコア(独自算出の注目度): 35.625940819995996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CoGS, a novel method for the style-conditioned, sketch-driven
synthesis of images. CoGS enables exploration of diverse appearance
possibilities for a given sketched object, enabling decoupled control over the
structure and the appearance of the output. Coarse-grained control over object
structure and appearance are enabled via an input sketch and an exemplar
"style" conditioning image to a transformer-based sketch and style encoder to
generate a discrete codebook representation. We map the codebook representation
into a metric space, enabling fine-grained control over selection and
interpolation between multiple synthesis options for a given image before
generating the image via a vector quantized GAN (VQGAN) decoder. Our framework
thereby unifies search and synthesis tasks, in that a sketch and style pair may
be used to run an initial synthesis which may be refined via combination with
similar results in a search corpus to produce an image more closely matching
the user's intent. We show that our model, trained on the 125 object classes of
our newly created Pseudosketches dataset, is capable of producing a diverse
gamut of semantic content and appearance styles.
- Abstract(参考訳): 画像のスタイル条件付きスケッチ駆動合成のための新しい手法であるCoGSを提案する。
CoGSは、与えられたスケッチオブジェクトに対する多様な外観可能性の探索を可能にし、構造と出力の外観を分離した制御を可能にする。
インプットスケッチと、変圧器ベースのスケッチおよびスタイルエンコーダに対する模範的な「スタイル」条件画像を介して、オブジェクト構造と外観の粗粒度制御を可能とし、離散コードブック表現を生成する。
コードブック表現を計量空間にマッピングし、ベクトル量子化GANデコーダ(VQGAN)を用いて画像を生成する前に、与えられた画像に対する複数の合成オプション間の選択と補間をきめ細かく制御する。
これにより、検索コーパスにおける類似した結果と組み合わせて、よりユーザの意図に合致した画像を生成することができる初期合成を実行するために、スケッチとスタイルペアが使用できるように、検索と合成のタスクを統一する。
新たに作成されたpseudosketchesデータセットの125のオブジェクトクラスでトレーニングされた我々のモデルは、セマンティックコンテンツと外観スタイルを多種多様に生成できることを示した。
関連論文リスト
- Transforming Image Generation from Scene Graphs [11.443097632746763]
本稿では,デコーダを用いて自動回帰合成を行うシーングラフを用いたトランスフォーマ方式を提案する。
提案アーキテクチャは,1)入力グラフの関係を符号化するグラフ畳み込みネットワーク,2)出力画像を自己回帰的に合成するエンコーダ・デコーダ変換器,3)各生成ステップの入力/出力として使用される表現を生成するオートエンコーダの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2022-07-01T16:59:38Z) - SemanticStyleGAN: Learning Compositional Generative Priors for
Controllable Image Synthesis and Editing [35.02841064647306]
StyleGANは、画像合成と編集の下流タスクに有望な事前モデルを提供する。
本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。
論文 参考訳(メタデータ) (2021-12-04T04:17:11Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Scene Designer: a Unified Model for Scene Search and Synthesis from
Sketch [7.719705312172286]
シーンデザイナ(Scene Designer)は、シーン構成の自由なスケッチを用いて画像の検索と生成を行う新しい方法である。
我々のコアコントリビューションは、画像に一致するスケッチされた合成のためのクロスモーダル検索埋め込みと、レイアウト合成のためのオブジェクト埋め込みの両方を学ぶための単一の統一モデルである。
論文 参考訳(メタデータ) (2021-08-16T21:40:16Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。