論文の概要: Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training
- arxiv url: http://arxiv.org/abs/2211.11138v1
- Date: Mon, 21 Nov 2022 01:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:43:25.443210
- Title: Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training
- Title(参考訳): マスク付きコントラストプレトレーニングによる拡散型シーングラフから画像生成
- Authors: Ling Yang, Zhilin Huang, Yang Song, Shenda Hong, Guohao Li, Wentao
Zhang, Bin Cui, Bernard Ghanem, Ming-Hsuan Yang
- Abstract要約: 画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
- 参考スコア(独自算出の注目度): 112.94542676251133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images from graph-structured inputs, such as scene graphs, is
uniquely challenging due to the difficulty of aligning nodes and connections in
graphs with objects and their relations in images. Most existing methods
address this challenge by using scene layouts, which are image-like
representations of scene graphs designed to capture the coarse structures of
scene images. Because scene layouts are manually crafted, the alignment with
images may not be fully optimized, causing suboptimal compliance between the
generated images and the original scene graphs. To tackle this issue, we
propose to learn scene graph embeddings by directly optimizing their alignment
with images. Specifically, we pre-train an encoder to extract both global and
local information from scene graphs that are predictive of the corresponding
images, relying on two loss functions: masked autoencoding loss and contrastive
loss. The former trains embeddings by reconstructing randomly masked image
regions, while the latter trains embeddings to discriminate between compliant
and non-compliant images according to the scene graph. Given these embeddings,
we build a latent diffusion model to generate images from scene graphs. The
resulting method, called SGDiff, allows for the semantic manipulation of
generated images by modifying scene graph nodes and connections. On the Visual
Genome and COCO-Stuff datasets, we demonstrate that SGDiff outperforms
state-of-the-art methods, as measured by both the Inception Score and Fr\'echet
Inception Distance (FID) metrics. We will release our source code and trained
models at https://github.com/YangLing0818/SGDiff.
- Abstract(参考訳): シーングラフなどのグラフ構造入力から画像を生成することは、グラフ内のノードとオブジェクトとの接続の調整が困難であり、画像内のそれらの関係が困難であるため、独特な課題である。
既存の手法の多くは、シーン画像の粗い構造をキャプチャするために設計されたシーングラフのイメージライクな表現であるシーンレイアウトを使用することで、この課題に対処している。
シーンレイアウトは手作業で作成されるため、画像とのアライメントが完全に最適化されない場合があるため、生成された画像と元のシーングラフの間に最適なコンプライアンスが生じる。
この問題に取り組むために,画像へのアライメントを直接最適化することで,シーングラフ埋め込みを学ぶことを提案する。
具体的には、エンコーダを事前学習し、対応する画像の予測であるシーングラフから、マスキングオートエンコーディング損失とコントラスト損失の2つの損失関数に依存するグローバルおよびローカル情報を抽出する。
前者はランダムにマスクされた画像領域を再構成して埋め込み、後者はシーングラフに従ってコンプライアンス画像と非コンプライアンス画像の区別を行う。
これらの埋め込みを考えると、シーングラフから画像を生成するために潜時拡散モデルを構築する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
Visual GenomeとCOCO-Stuffのデータセットでは、SGDiffがInception ScoreとFr\echet Inception Distance(FID)のメトリクスで測定されるように、最先端の手法よりも優れていることを示す。
ソースコードとトレーニングされたモデルをhttps://github.com/YangLing0818/SGDiff.comでリリースします。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs [0.0]
シーングラフから画像を生成する新しい手法を提案する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
実験により,本手法は標準ベンチマークにおける既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-25T11:46:31Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - SPAN: Learning Similarity between Scene Graphs and Images with Transformers [29.582313604112336]
本稿では,シーングラフと画像の類似性を計測するScene graPh-imAge coNtrastive learning framework, SPANを提案する。
本稿では,シーングラフを構造的エンコーディングを伴うシーケンスに変換する新しいグラフシリアライズ手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T18:13:36Z) - MIGS: Meta Image Generation from Scene Graphs [48.82382997154196]
メタラーニングに基づくグラフ画像生成手法であるMIGS(Meta Image Generation from Scene Graphs)を提案する。
タスク駆動方式でデータをサンプリングすることにより、シーン属性に基づいて分類されたタスクの集合に基づいてメタラーニングを用いてジェネレータを訓練する。
以上の結果から,このメタラーニング手法を用いて,映像の質とシーンの意味的関係を把握し,シーングラフから画像を生成することが示唆された。
論文 参考訳(メタデータ) (2021-10-22T17:02:44Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。