論文の概要: BachGAN: High-Resolution Image Synthesis from Salient Object Layout
- arxiv url: http://arxiv.org/abs/2003.11690v2
- Date: Fri, 27 Mar 2020 20:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:51:43.568991
- Title: BachGAN: High-Resolution Image Synthesis from Salient Object Layout
- Title(参考訳): BachGAN: 健全な物体レイアウトから高分解能画像合成
- Authors: Yandong Li, Yu Cheng, Zhe Gan, Licheng Yu, Liqiang Wang, and Jingjing
Liu
- Abstract要約: 本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
- 参考スコア(独自算出の注目度): 78.51640906030244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new task towards more practical application for image generation
- high-quality image synthesis from salient object layout. This new setting
allows users to provide the layout of salient objects only (i.e., foreground
bounding boxes and categories), and lets the model complete the drawing with an
invented background and a matching foreground. Two main challenges spring from
this new task: (i) how to generate fine-grained details and realistic textures
without segmentation map input; and (ii) how to create a background and weave
it seamlessly into standalone objects. To tackle this, we propose Background
Hallucination Generative Adversarial Network (BachGAN), which first selects a
set of segmentation maps from a large candidate pool via a background retrieval
module, then encodes these candidate layouts via a background fusion module to
hallucinate a suitable background for the given objects. By generating the
hallucinated background representation dynamically, our model can synthesize
high-resolution images with both photo-realistic foreground and integral
background. Experiments on Cityscapes and ADE20K datasets demonstrate the
advantage of BachGAN over existing methods, measured on both visual fidelity of
generated images and visual alignment between output images and input layouts.
- Abstract(参考訳): 本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
この新しい設定により、ユーザーはサルエントオブジェクトのレイアウト(例えば、前景のバウンディングボックスとカテゴリ)のみを提供でき、モデルが発明された背景と一致する前景で描画を完了することができる。
新しいタスクから2つの大きな課題が生まれます。
(i)セグメンテーションマップを入力せずに細かい細部や現実的なテクスチャを生成する方法
(ii)背景を作成し、それを独立したオブジェクトにシームレスに織り込む方法。
そこで我々は,まず背景検索モジュールを介して大きな候補プールからセグメンテーションマップのセットを選択し,次にこれらの候補レイアウトを背景融合モジュールを介してエンコードし,与えられたオブジェクトの適切な背景を暗示する背景幻覚生成逆ネットワーク(bachgan)を提案する。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
CityscapesとADE20Kデータセットの実験は、生成された画像の視覚的忠実度と出力画像と入力レイアウト間の視覚的アライメントの両方に基づいて測定された、既存の手法よりもBachGANの利点を実証している。
関連論文リスト
- GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。
提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - Painterly Image Harmonization via Adversarial Residual Learning [37.78751164466694]
画家的なイメージは 背景の絵のスタイルを 前景の物体に 転送することを目的としています
本研究では,前景特徴写像と背景特徴写像の間の領域ギャップを埋めるために,逆学習を用いる。
論文 参考訳(メタデータ) (2023-11-15T01:53:46Z) - BATINet: Background-Aware Text to Image Synthesis and Manipulation
Network [12.924990882126105]
生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。
本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案する。
我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-08-11T03:22:33Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Deep Rectangling for Image Stitching: A Learning Baseline [57.76737888499145]
我々は不規則な境界やシーンに大きな多様性を持つ最初の画像縫合整形データセットを構築した。
実験では、従来の方法よりも定量的にも質的にも優位性を示す。
論文 参考訳(メタデータ) (2022-03-08T03:34:10Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Generating Object Stamps [47.20601520671103]
GANアーキテクチャを用いて,様々な前景オブジェクトを生成し,背景画像に合成するアルゴリズムを提案する。
挑戦的なCOCOデータセットの結果,最先端のオブジェクト挿入手法と比較して,全体的な品質と多様性が向上した。
論文 参考訳(メタデータ) (2020-01-01T14:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。