論文の概要: Transforming Image Generation from Scene Graphs
- arxiv url: http://arxiv.org/abs/2207.00545v1
- Date: Fri, 1 Jul 2022 16:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 15:12:17.671236
- Title: Transforming Image Generation from Scene Graphs
- Title(参考訳): シーングラフからの変換画像生成
- Authors: Renato Sortino, Simone Palazzo, Concetto Spampinato
- Abstract要約: 本稿では,デコーダを用いて自動回帰合成を行うシーングラフを用いたトランスフォーマ方式を提案する。
提案アーキテクチャは,1)入力グラフの関係を符号化するグラフ畳み込みネットワーク,2)出力画像を自己回帰的に合成するエンコーダ・デコーダ変換器,3)各生成ステップの入力/出力として使用される表現を生成するオートエンコーダの3つのモジュールから構成される。
- 参考スコア(独自算出の注目度): 11.443097632746763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating images from semantic visual knowledge is a challenging task, that
can be useful to condition the synthesis process in complex, subtle, and
unambiguous ways, compared to alternatives such as class labels or text
descriptions. Although generative methods conditioned by semantic
representations exist, they do not provide a way to control the generation
process aside from the specification of constraints between objects. As an
example, the possibility to iteratively generate or modify images by manually
adding specific items is a desired property that, to our knowledge, has not
been fully investigated in the literature. In this work we propose a
transformer-based approach conditioned by scene graphs that, conversely to
recent transformer-based methods, also employs a decoder to autoregressively
compose images, making the synthesis process more effective and controllable.
The proposed architecture is composed by three modules: 1) a graph
convolutional network, to encode the relationships of the input graph; 2) an
encoder-decoder transformer, which autoregressively composes the output image;
3) an auto-encoder, employed to generate representations used as input/output
of each generation step by the transformer. Results obtained on CIFAR10 and
MNIST images show that our model is able to satisfy semantic constraints
defined by a scene graph and to model relations between visual objects in the
scene by taking into account a user-provided partial rendering of the desired
target.
- Abstract(参考訳): 意味的な視覚的知識から画像を生成することは難しい作業であり、クラスラベルやテキスト記述のような代替品と比較して、合成プロセスを複雑で微妙で曖昧な方法で条件付けるのに役立ちます。
意味表現によって条件付けられた生成メソッドは存在するが、オブジェクト間の制約の仕様以外に生成プロセスを制御する手段を提供していない。
例として、手動で特定の項目を追加して画像を反復的に生成または修正する可能性は、我々の知る限り、文献において十分に研究されていない所望の特性である。
本研究は,シーングラフによって条件付けられたトランスフォーマーベースのアプローチを提案する。この手法は,最近のトランスフォーマーベースの手法と逆に,デコーダを用いて自動回帰合成を行う。
提案されたアーキテクチャは3つのモジュールで構成されている。
1) 入力グラフの関係を符号化するグラフ畳み込みネットワーク
2) 出力画像を自己回帰的に構成するエンコーダ−デコーダ変換器
3) トランスによって各生成ステップの入出力として使用される表現を生成するために使用される自動エンコーダ。
CIFAR10およびMNIST画像から得られた結果から,本モデルはシーングラフで定義されたセマンティック制約を満たすことができ,ユーザが希望するターゲットの部分的レンダリングを考慮に入れ,シーン内の視覚オブジェクト間の関係をモデル化することができる。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Iterative Object Count Optimization for Text-to-image Diffusion Models [59.03672816121209]
画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。
本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Object-Centric Relational Representations for Image Generation [18.069747511100132]
本稿では,オブジェクト中心のリレーショナル表現に基づく条件画像生成手法を提案する。
このようなアーキテクチャバイアスには,生成過程の操作と条件付けを容易にする特性が伴うことを示す。
また,関係表現と組み合わせた画像の合成データセットからなる画像生成のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-26T11:17:17Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。