論文の概要: Context-Aware Layout to Image Generation with Enhanced Object Appearance
- arxiv url: http://arxiv.org/abs/2103.11897v1
- Date: Mon, 22 Mar 2021 14:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:25:26.163429
- Title: Context-Aware Layout to Image Generation with Enhanced Object Appearance
- Title(参考訳): 拡張オブジェクト出現による画像生成のためのコンテキスト認識レイアウト
- Authors: Sen He, Wentong Liao, Michael Ying Yang, Yongxin Yang, Yi-Zhe Song,
Bodo Rosenhahn, Tao Xiang
- Abstract要約: レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
- 参考スコア(独自算出の注目度): 123.62597976732948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A layout to image (L2I) generation model aims to generate a complicated image
containing multiple objects (things) against natural background (stuff),
conditioned on a given layout. Built upon the recent advances in generative
adversarial networks (GANs), existing L2I models have made great progress.
However, a close inspection of their generated images reveals two major
limitations: (1) the object-to-object as well as object-to-stuff relations are
often broken and (2) each object's appearance is typically distorted lacking
the key defining characteristics associated with the object class. We argue
that these are caused by the lack of context-aware object and stuff feature
encoding in their generators, and location-sensitive appearance representation
in their discriminators. To address these limitations, two new modules are
proposed in this work. First, a context-aware feature transformation module is
introduced in the generator to ensure that the generated feature encoding of
either object or stuff is aware of other co-existing objects/stuff in the
scene. Second, instead of feeding location-insensitive image features to the
discriminator, we use the Gram matrix computed from the feature maps of the
generated object images to preserve location-sensitive information, resulting
in much enhanced object appearance. Extensive experiments show that the
proposed method achieves state-of-the-art performance on the COCO-Thing-Stuff
and Visual Genome benchmarks.
- Abstract(参考訳): レイアウト・トゥ・イメージ(L2I)生成モデルは、所定のレイアウトに条件付けされた自然の背景に対して複数のオブジェクト(モノ)を含む複雑な画像を生成することを目的としている。
GAN(Generative Adversarial Network)の最近の進歩に基づき、既存のL2Iモデルは大きな進歩を遂げた。
しかし、生成された画像の綿密な検査では、(1)対象物と目的物の関係が壊れることが多く、(2)オブジェクトの外観が通常、オブジェクトクラスに関連する重要な定義特性を欠いているという2つの大きな制限が示される。
これらの要因は, 環境に配慮したオブジェクトの欠如や, ジェネレータのコード化や, 識別器の位置情報に敏感な外観表現が原因である。
これらの制限に対処するため、2つの新しいモジュールが提案されている。
まず、ジェネレータにコンテキストアウェアな機能変換モジュールを導入し、生成されたオブジェクトまたは物の機能エンコーディングがシーン内の他の共存するオブジェクト/スタフを認識していることを保証する。
第二に、識別器に位置感性画像の特徴を与える代わりに、生成した物体画像の特徴マップから計算したグラム行列を用いて位置感性情報を保存することにより、オブジェクトの外観が大幅に向上する。
提案手法がcoco-thing-stuffベンチマークおよび視覚ゲノムベンチマークで最先端のパフォーマンスを実現することを示す。
関連論文リスト
- SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文 参考訳(メタデータ) (2021-04-01T09:21:39Z) - Attribute-guided image generation from layout [38.817023543020134]
本稿では,インスタンスレベルの属性制御が可能な画像生成手法を提案する。
Visual Genomeデータセットの実験では、生成した画像のオブジェクトレベルの属性を制御できるモデルの能力が実証されている。
本モデルから生成した画像は,従来の最先端画像と比較して高分解能,オブジェクト分類精度,整合性を有する。
論文 参考訳(メタデータ) (2020-08-27T06:22:14Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。