論文の概要: Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models
- arxiv url: http://arxiv.org/abs/2401.01130v1
- Date: Tue, 2 Jan 2024 10:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:09:22.984670
- Title: Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models
- Title(参考訳): 拡散モデルによるシーングラフと画像の連成生成モデル
- Authors: Bicheng Xu, Qi Yan, Renjie Liao, Lele Wang, Leonid Sigal
- Abstract要約: 共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
- 参考スコア(独自算出の注目度): 37.788957749123725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel generative task: joint scene graph - image
generation. While previous works have explored image generation conditioned on
scene graphs or layouts, our task is distinctive and important as it involves
generating scene graphs themselves unconditionally from noise, enabling
efficient and interpretable control for image generation. Our task is
challenging, requiring the generation of plausible scene graphs with
heterogeneous attributes for nodes (objects) and edges (relations among
objects), including continuous object bounding boxes and discrete object and
relation categories. We introduce a novel diffusion model, DiffuseSG, that
jointly models the adjacency matrix along with heterogeneous node and edge
attributes. We explore various types of encodings for the categorical data,
relaxing it into a continuous space. With a graph transformer being the
denoiser, DiffuseSG successively denoises the scene graph representation in a
continuous space and discretizes the final representation to generate the clean
scene graph. Additionally, we introduce an IoU regularization to enhance the
empirical performance. Our model significantly outperforms existing methods in
scene graph generation on the Visual Genome and COCO-Stuff datasets, both on
standard and newly introduced metrics that better capture the problem
complexity. Moreover, we demonstrate the additional benefits of our model in
two downstream applications: 1) excelling in a series of scene graph completion
tasks, and 2) improving scene graph detection models by using extra training
samples generated from DiffuseSG.
- Abstract(参考訳): 本稿では,新しい生成課題であるジョイントシーングラフ - 画像生成について述べる。
これまでの研究では,シーングラフやレイアウトに条件付けされた画像生成について検討してきたが,ノイズからシーングラフ自体を無条件に生成し,効率よく解釈可能な画像生成制御を可能にするため,その課題は独特かつ重要である。
我々の課題は、連続的なオブジェクト境界ボックスや離散オブジェクトと関係カテゴリを含む、ノード(オブジェクト)とエッジ(オブジェクト間の関係)の不均一な属性を持つ可塑性シーングラフの生成を必要とする。
本研究では,隣接行列と異種ノードとエッジ属性を共同でモデル化する新しい拡散モデルであるdividencesgを提案する。
分類データの様々な種類のエンコーディングを探索し、それを連続した空間に緩和する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
さらに,実験性能を高めるためにIoU正規化を導入する。
本モデルは,視覚ゲノムとcoco-stuffデータセットを用いたシーングラフ生成における既存の手法を,問題複雑性をよりよく捉えるための標準指標と新たに導入された指標の両方で大幅に上回っている。
さらに、下流の2つのアプリケーションで、我々のモデルのさらなる利点を示す。
1)一連のシーングラフ補完タスクにおいて優れていること、及び
2)DiffuseSGから生成された余分なトレーニングサンプルを用いてシーングラフ検出モデルを改善する。
関連論文リスト
- Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation [10.678727237318503]
Imparは、カリキュラム学習と損失マスキングを利用してバイアス発生と予測モデリングを緩和する新しいトレーニングフレームワークである。
本稿では,STSGモデルの分散シフトに対する堅牢性を評価するために,Robust Spatio-Temporal Scene Graph GenerationとRobust Scene Graph Precipationという2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2024-11-20T06:15:28Z) - Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - GrannGAN: Graph annotation generative adversarial networks [72.66289932625742]
本稿では,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成することの問題点を考察する。
提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。
第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。
論文 参考訳(メタデータ) (2022-12-01T11:49:07Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。