論文の概要: Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis
- arxiv url: http://arxiv.org/abs/2003.11571v2
- Date: Fri, 26 Mar 2021 19:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:31:50.842550
- Title: Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis
- Title(参考訳): 制御可能な画像合成のための学習レイアウトとスタイル再構成可能なgan
- Authors: Wei Sun and Tianfu Wu
- Abstract要約: 本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
- 参考スコア(独自算出の注目度): 12.449076001538552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the remarkable recent progress on learning deep generative models, it
becomes increasingly interesting to develop models for controllable image
synthesis from reconfigurable inputs. This paper focuses on a recent emerged
task, layout-to-image, to learn generative models that are capable of
synthesizing photo-realistic images from spatial layout (i.e., object bounding
boxes configured in an image lattice) and style (i.e., structural and
appearance variations encoded by latent vectors). This paper first proposes an
intuitive paradigm for the task, layout-to-mask-to-image, to learn to unfold
object masks of given bounding boxes in an input layout to bridge the gap
between the input layout and synthesized images. Then, this paper presents a
method built on Generative Adversarial Networks for the proposed
layout-to-mask-to-image with style control at both image and mask levels.
Object masks are learned from the input layout and iteratively refined along
stages in the generator network. Style control at the image level is the same
as in vanilla GANs, while style control at the object mask level is realized by
a proposed novel feature normalization scheme, Instance-Sensitive and
Layout-Aware Normalization. In experiments, the proposed method is tested in
the COCO-Stuff dataset and the Visual Genome dataset with state-of-the-art
performance obtained.
- Abstract(参考訳): 近年の深層生成モデル学習の進歩により、再構成可能な入力から制御可能な画像合成モデルを開発することがますます興味深い。
本稿では,空間レイアウト(画像格子で構成されたオブジェクトバウンディングボックス)とスタイル(潜在ベクトルで符号化された構造と外観のバリエーション)からフォトリアリスティックなイメージを合成できる生成モデルを学ぶために,最近出現したタスクであるlayout-to-imageに焦点を当てる。
まず,入力レイアウトにおいて与えられた境界ボックスのオブジェクトマスクを展開することを学び,入力レイアウトと合成画像とのギャップを埋めるための直感的パラダイムであるlayout-to-mask-to-imageを提案する。
そこで本稿では,画像レベルとマスクレベルの両方でスタイル制御を行うレイアウト・ツー・マスク・ツー・イメージのための生成的逆ネットワークに基づく手法を提案する。
オブジェクトマスクは入力レイアウトから学び、ジェネレータネットワークのステージに沿って反復的に洗練される。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化スキーム、インスタンス-知覚およびレイアウト-認識正規化によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
関連論文リスト
- Automatic Generation of Semantic Parts for Face Image Synthesis [7.728916126705043]
セグメンテーションマスクにおけるオブジェクトクラスの形状を自動操作または生成する問題に対処するネットワークアーキテクチャについて述べる。
提案モデルでは,各クラス埋め込みを独立して編集可能な潜在空間にマスクのクラスワイズを埋め込むことができる。
本稿では,Celeb-MaskHQデータセットの定量的および定性的な結果について報告する。
論文 参考訳(メタデータ) (2023-07-11T15:01:42Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - CoGS: Controllable Generation and Search from Sketch and Style [35.625940819995996]
画像のスタイル条件付きスケッチ駆動合成法であるCoGSを提案する。
CoGSは、与えられたスケッチされたオブジェクトの様々な外観可能性の探索を可能にする。
新たに作成したPseudosketchesデータセットの125のオブジェクトクラスをトレーニングしたモデルでは,セマンティックコンテンツや外観スタイルの多様さが実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-17T18:36:11Z) - Interactive Image Synthesis with Panoptic Layout Generation [14.1026819862002]
本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
論文 参考訳(メタデータ) (2022-03-04T02:45:27Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2021-03-27T11:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。