論文の概要: Interactive Image Synthesis with Panoptic Layout Generation
- arxiv url: http://arxiv.org/abs/2203.02104v1
- Date: Fri, 4 Mar 2022 02:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 15:14:06.875041
- Title: Interactive Image Synthesis with Panoptic Layout Generation
- Title(参考訳): パン光学レイアウト生成を用いたインタラクティブ画像合成
- Authors: Bo Wang, Tao Wu, Minfeng Zhu, Peng Du
- Abstract要約: 本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
- 参考スコア(独自算出の注目度): 14.1026819862002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive image synthesis from user-guided input is a challenging task when
users wish to control the scene structure of a generated image with
ease.Although remarkable progress has been made on layout-based image synthesis
approaches, in order to get realistic fake image in interactive scene, existing
methods require high-precision inputs, which probably need adjustment several
times and are unfriendly to novice users. When placement of bounding boxes is
subject to perturbation, layout-based models suffer from "missing regions" in
the constructed semantic layouts and hence undesirable artifacts in the
generated images. In this work, we propose Panoptic Layout Generative
Adversarial Networks (PLGAN) to address this challenge. The PLGAN employs
panoptic theory which distinguishes object categories between "stuff" with
amorphous boundaries and "things" with well-defined shapes, such that stuff and
instance layouts are constructed through separate branches and later fused into
panoptic layouts. In particular, the stuff layouts can take amorphous shapes
and fill up the missing regions left out by the instance layouts. We
experimentally compare our PLGAN with state-of-the-art layout-based models on
the COCO-Stuff, Visual Genome, and Landscape datasets. The advantages of PLGAN
are not only visually demonstrated but quantitatively verified in terms of
inception score, Fr\'echet inception distance, classification accuracy score,
and coverage.
- Abstract(参考訳): ユーザ誘導入力からのインタラクティブ画像合成は、ユーザが生成した画像のシーン構造を容易かつ容易に制御したい場合の課題である。インタラクティブシーンでリアルな偽画像を得るためには、レイアウトベースの画像合成アプローチでは顕著な進歩がなされているが、既存の手法では高精度な入力が必要である。
境界ボックスの配置が摂動を受ける場合、レイアウトベースのモデルは構築されたセマンティックレイアウトの「欠落領域」に悩まされ、生成した画像には望ましくないアーティファクトが生じる。
本研究では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、オブジェクトカテゴリをアモルファスな境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティカル理論を採用しており、モノとインスタンスのレイアウトは別々のブランチを通して構築され、後にパノプティカルなレイアウトに融合される。
特に、モノのレイアウトはアモルファスな形を取り、インスタンスのレイアウトで残された領域を埋めることができます。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルと比較実験を行った。
plganの利点は視覚的に示されるだけでなく、インセプションスコア、fr\'echetインセプション距離、分類精度スコア、カバレッジの観点から定量的に検証されている。
関連論文リスト
- LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z) - Semantic Palette: Guiding Scene Generation with Class Proportions [34.746963256847145]
本稿では,シーン生成プロセスの指針として,クラス比率を効果的に許容する,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。
セマンティックコントロールにより、実際の分布に近いレイアウトを生成でき、シーン生成プロセス全体の拡張に役立つ。
実際のレイアウトとイメージのペアでトレーニングされたセグメンテーションセグメントは、実際のペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T07:04:00Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。