論文の概要: Transforming Image Generation from Scene Graphs
- arxiv url: http://arxiv.org/abs/2207.00545v1
- Date: Fri, 1 Jul 2022 16:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 15:12:17.671236
- Title: Transforming Image Generation from Scene Graphs
- Title(参考訳): シーングラフからの変換画像生成
- Authors: Renato Sortino, Simone Palazzo, Concetto Spampinato
- Abstract要約: 本稿では,デコーダを用いて自動回帰合成を行うシーングラフを用いたトランスフォーマ方式を提案する。
提案アーキテクチャは,1)入力グラフの関係を符号化するグラフ畳み込みネットワーク,2)出力画像を自己回帰的に合成するエンコーダ・デコーダ変換器,3)各生成ステップの入力/出力として使用される表現を生成するオートエンコーダの3つのモジュールから構成される。
- 参考スコア(独自算出の注目度): 11.443097632746763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating images from semantic visual knowledge is a challenging task, that
can be useful to condition the synthesis process in complex, subtle, and
unambiguous ways, compared to alternatives such as class labels or text
descriptions. Although generative methods conditioned by semantic
representations exist, they do not provide a way to control the generation
process aside from the specification of constraints between objects. As an
example, the possibility to iteratively generate or modify images by manually
adding specific items is a desired property that, to our knowledge, has not
been fully investigated in the literature. In this work we propose a
transformer-based approach conditioned by scene graphs that, conversely to
recent transformer-based methods, also employs a decoder to autoregressively
compose images, making the synthesis process more effective and controllable.
The proposed architecture is composed by three modules: 1) a graph
convolutional network, to encode the relationships of the input graph; 2) an
encoder-decoder transformer, which autoregressively composes the output image;
3) an auto-encoder, employed to generate representations used as input/output
of each generation step by the transformer. Results obtained on CIFAR10 and
MNIST images show that our model is able to satisfy semantic constraints
defined by a scene graph and to model relations between visual objects in the
scene by taking into account a user-provided partial rendering of the desired
target.
- Abstract(参考訳): 意味的な視覚的知識から画像を生成することは難しい作業であり、クラスラベルやテキスト記述のような代替品と比較して、合成プロセスを複雑で微妙で曖昧な方法で条件付けるのに役立ちます。
意味表現によって条件付けられた生成メソッドは存在するが、オブジェクト間の制約の仕様以外に生成プロセスを制御する手段を提供していない。
例として、手動で特定の項目を追加して画像を反復的に生成または修正する可能性は、我々の知る限り、文献において十分に研究されていない所望の特性である。
本研究は,シーングラフによって条件付けられたトランスフォーマーベースのアプローチを提案する。この手法は,最近のトランスフォーマーベースの手法と逆に,デコーダを用いて自動回帰合成を行う。
提案されたアーキテクチャは3つのモジュールで構成されている。
1) 入力グラフの関係を符号化するグラフ畳み込みネットワーク
2) 出力画像を自己回帰的に構成するエンコーダ−デコーダ変換器
3) トランスによって各生成ステップの入出力として使用される表現を生成するために使用される自動エンコーダ。
CIFAR10およびMNIST画像から得られた結果から,本モデルはシーングラフで定義されたセマンティック制約を満たすことができ,ユーザが希望するターゲットの部分的レンダリングを考慮に入れ,シーン内の視覚オブジェクト間の関係をモデル化することができる。
関連論文リスト
- Relational Inductive Biases for Object-Centric Image Generation [10.219833196479142]
本稿では,オブジェクト中心のリレーショナル表現に基づく条件付き画像生成手法を提案する。
本稿では,その構造と関連するスタイルを表す属性グラフ上の画像中の特定のオブジェクトの生成を条件付ける手法を提案する。
提案フレームワークは、基礎となるグラフと出力画像となる2Dグリッドの両方で動作する畳み込み演算子を組み合わせたニューラルネットワークアーキテクチャを用いて実装されている。
論文 参考訳(メタデータ) (2023-03-26T11:17:17Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。