論文の概要: Attribute-guided image generation from layout
- arxiv url: http://arxiv.org/abs/2008.11932v1
- Date: Thu, 27 Aug 2020 06:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:03:37.675332
- Title: Attribute-guided image generation from layout
- Title(参考訳): レイアウトからの属性誘導画像生成
- Authors: Ke Ma, Bo Zhao, Leonid Sigal
- Abstract要約: 本稿では,インスタンスレベルの属性制御が可能な画像生成手法を提案する。
Visual Genomeデータセットの実験では、生成した画像のオブジェクトレベルの属性を制御できるモデルの能力が実証されている。
本モデルから生成した画像は,従来の最先端画像と比較して高分解能,オブジェクト分類精度,整合性を有する。
- 参考スコア(独自算出の注目度): 38.817023543020134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches have achieved great success in image generation from
structured inputs, e.g., semantic segmentation, scene graph or layout. Although
these methods allow specification of objects and their locations at
image-level, they lack the fidelity and semantic control to specify visual
appearance of these objects at an instance-level. To address this limitation,
we propose a new image generation method that enables instance-level attribute
control. Specifically, the input to our attribute-guided generative model is a
tuple that contains: (1) object bounding boxes, (2) object categories and (3)
an (optional) set of attributes for each object. The output is a generated
image where the requested objects are in the desired locations and have
prescribed attributes. Several losses work collaboratively to encourage
accurate, consistent and diverse image generation. Experiments on Visual Genome
dataset demonstrate our model's capacity to control object-level attributes in
generated images, and validate plausibility of disentangled object-attribute
representation in the image generation from layout task. Also, the generated
images from our model have higher resolution, object classification accuracy
and consistency, as compared to the previous state-of-the-art.
- Abstract(参考訳): 近年のアプローチは、セマンティックセグメンテーション、シーングラフ、レイアウトなど、構造化された入力から画像を生成することに成功している。
これらの方法では、オブジェクトとその位置を画像レベルで指定できるが、インスタンスレベルでのオブジェクトの視覚的外観を特定するための忠実さと意味制御が欠如している。
この制限に対処するため,インスタンスレベルの属性制御が可能な画像生成手法を提案する。
具体的には、属性誘導生成モデルへの入力は、(1)オブジェクト境界ボックス、(2)オブジェクトカテゴリ、(3)各オブジェクトに対する属性セット(オプション)を含むタプルである。
出力は、要求されたオブジェクトが所望の位置に存在し、所定の属性を持つ生成された画像である。
いくつかの損失は、正確で一貫性があり多様な画像生成を促進するために協力的に働く。
Visual Genomeデータセットの実験では、生成した画像のオブジェクトレベルの属性を制御し、レイアウトタスクから画像生成におけるオブジェクト-属性の非依存表現の妥当性を検証することができる。
また,本モデルから生成した画像は,従来の最先端画像と比較して高解像度,オブジェクト分類精度,一貫性を有する。
関連論文リスト
- SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation [10.416673784744281]
本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。
提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T15:04:13Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable
Layout and Style [5.912209564607099]
レイアウトから属性制御画像合成を行う方法を提案する。
我々は、属性の個々のオブジェクトを条件づけるために、レイアウトから画像への生成に関する最先端のアプローチを拡張する。
提案手法は,複雑なシーンを複数のオブジェクトでモデリングする際に,個々のオブジェクトの細かな詳細をうまく制御できることを示す。
論文 参考訳(メタデータ) (2021-03-25T10:09:45Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - MulGAN: Facial Attribute Editing by Exemplar [2.272764591035106]
遅延特徴空間の予め定義された領域に画像の属性関連情報をエンコードする手法では、逆の属性を持つ一対の画像を列車モデルへの入力として利用する。
それらには、3つの制限がある:(1)モデルが入力として反対の属性を持つ一対のイメージを使用して訓練されなければならない;(2)複数の属性を例によって編集する能力の弱い;(3)画像生成の質が悪い。
論文 参考訳(メタデータ) (2019-12-28T04:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。