論文の概要: Joint Generative Modeling of Grounded Scene Graphs and Images via Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.01130v2
- Date: Sat, 02 Aug 2025 05:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.507612
- Title: Joint Generative Modeling of Grounded Scene Graphs and Images via Diffusion Models
- Title(参考訳): 拡散モデルによる接地シーングラフと画像の連成生成モデル
- Authors: Bicheng Xu, Qi Yan, Renjie Liao, Lele Wang, Leonid Sigal,
- Abstract要約: 本稿では,共同シーングラフ(画像生成)のためのフレームワークを提案する。
DiffuseSGは、異種ノードとエッジ属性を共同でモデル化する新しい拡散モデルである。
本モデルは,VGおよびCOCO-Stuffデータセット上でのシーングラフ生成において,既存の手法よりも優れる。
- 参考スコア(独自算出の注目度): 35.22309759777998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a framework for joint grounded scene graph - image generation, a challenging task involving high-dimensional, multi-modal structured data. To effectively model this complex joint distribution, we adopt a factorized approach: first generating a grounded scene graph, followed by image generation conditioned on the generated grounded scene graph. While conditional image generation has been widely explored in the literature, our primary focus is on the generation of grounded scene graphs from noise, which provides efficient and interpretable control over the image generation process. This task requires generating plausible grounded scene graphs with heterogeneous attributes for both nodes (objects) and edges (relations among objects), encompassing continuous attributes (e.g., object bounding boxes) and discrete attributes (e.g., object and relation categories). To address this challenge, we introduce DiffuseSG, a novel diffusion model that jointly models the heterogeneous node and edge attributes. We explore different encoding strategies to effectively handle the categorical data. Leveraging a graph transformer as the denoiser, DiffuseSG progressively refines grounded scene graph representations in a continuous space before discretizing them to generate structured outputs. Additionally, we introduce an IoU-based regularization term to enhance empirical performance. Our model outperforms existing methods in grounded scene graph generation on the VG and COCO-Stuff datasets, excelling in both standard and newly introduced metrics that more accurately capture the task's complexity. Furthermore, we demonstrate the broader applicability of DiffuseSG in two important downstream tasks: 1) achieving superior results in a range of grounded scene graph completion tasks, and 2) enhancing grounded scene graph detection models by leveraging additional training samples generated by DiffuseSG.
- Abstract(参考訳): 本稿では,高次元マルチモーダルな構造化データを含む課題である画像生成のための枠組みを提案する。
この複雑な共同分布を効果的にモデル化するために、まず接地シーングラフを生成し、次いで生成した接地シーングラフに条件付き画像を生成する。
条件付き画像生成は文献で広く研究されているが、主にノイズから接地したシーングラフの生成に焦点が当てられ、画像生成プロセスの効率的かつ解釈可能な制御が実現されている。
このタスクでは、ノード(オブジェクト)とエッジ(オブジェクト間の関係)の両方に不均一な属性を持つプラウシブルなグラウンドグラフを生成し、連続属性(オブジェクト境界ボックスなど)と離散属性(オブジェクトと関係カテゴリなど)を含む必要がある。
この課題に対処するために、異種ノードとエッジ属性を共同でモデル化する新しい拡散モデルであるDiffuseSGを紹介する。
分類データを効果的に扱えるように、さまざまなエンコーディング戦略を探求する。
グラフ変換器をデノイザとして利用することにより、DiffuseSGは連続空間における接地グラフ表現を徐々に洗練し、離散化して構造化出力を生成する。
さらに,実験性能を高めるために,IoUに基づく正規化用語を導入する。
我々のモデルは,VGデータセットとCOCO-Stuffデータセットのグラウンドド・シーングラフ生成における既存の手法よりも優れており,タスクの複雑さをより正確に捉えるための標準および新しく導入された指標の両方で優れている。
さらに,2つの重要な下流タスクにおいて,DiffuseSGの広範な適用性を示す。
1)接地されたシーングラフ完成作業における優れた結果を達成すること、及び
2)DiffuseSGが生成した追加のトレーニングサンプルを活用することにより,シーングラフ検出モデルの向上が図られた。
関連論文リスト
- Heterogeneous Image GNN: Graph-Conditioned Diffusion for Image Synthesis [0.0]
本稿では、変数と対象画像を2つの相互接続グラフとしてモデル化する新しい表現である、異種画像グラフ(HIG)を提案する。
また,HIGを既存のEDM2拡散モデルに統合した大域保存型GNNを提案する。
論文 参考訳(メタデータ) (2025-02-03T12:36:14Z) - Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation [10.678727237318503]
Imparは、カリキュラム学習と損失マスキングを利用してバイアス発生と予測モデリングを緩和する新しいトレーニングフレームワークである。
本稿では,STSGモデルの分散シフトに対する堅牢性を評価するために,Robust Spatio-Temporal Scene Graph GenerationとRobust Scene Graph Precipationという2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2024-11-20T06:15:28Z) - Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - GrannGAN: Graph annotation generative adversarial networks [72.66289932625742]
本稿では,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成することの問題点を考察する。
提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。
第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。
論文 参考訳(メタデータ) (2022-12-01T11:49:07Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - SCGG: A Deep Structure-Conditioned Graph Generative Model [9.046174529859524]
SCGGと呼ばれる条件付きディープグラフ生成法は、特定のタイプの構造条件を考える。
SCGGのアーキテクチャは、グラフ表現学習ネットワークと、エンドツーエンドで訓練された自己回帰生成モデルで構成されている。
合成と実世界の両方のデータセットに対する実験結果は,最先端のベースラインと比較して,本手法の優位性を示している。
論文 参考訳(メタデータ) (2022-09-20T12:33:50Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。