論文の概要: Scene Graph to Image Synthesis: Integrating CLIP Guidance with Graph
Conditioning in Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.14111v1
- Date: Thu, 25 Jan 2024 11:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:42:01.155819
- Title: Scene Graph to Image Synthesis: Integrating CLIP Guidance with Graph
Conditioning in Diffusion Models
- Title(参考訳): シーングラフから画像合成:拡散モデルにおけるCLIP誘導とグラフ条件の統合
- Authors: Rameshwar Mishra, A V Subramanyam
- Abstract要約: シーングラフから画像を生成する新しい手法を提案する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
実験により,本手法は標準ベンチマークにおける既存手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in generative models have sparked significant interest in
generating images while adhering to specific structural guidelines. Scene graph
to image generation is one such task of generating images which are consistent
with the given scene graph. However, the complexity of visual scenes poses a
challenge in accurately aligning objects based on specified relations within
the scene graph. Existing methods approach this task by first predicting a
scene layout and generating images from these layouts using adversarial
training. In this work, we introduce a novel approach to generate images from
scene graphs which eliminates the need of predicting intermediate layouts. We
leverage pre-trained text-to-image diffusion models and CLIP guidance to
translate graph knowledge into images. Towards this, we first pre-train our
graph encoder to align graph features with CLIP features of corresponding
images using a GAN based training. Further, we fuse the graph features with
CLIP embedding of object labels present in the given scene graph to create a
graph consistent CLIP guided conditioning signal. In the conditioning input,
object embeddings provide coarse structure of the image and graph features
provide structural alignment based on relationships among objects. Finally, we
fine tune a pre-trained diffusion model with the graph consistent conditioning
signal with reconstruction and CLIP alignment loss. Elaborate experiments
reveal that our method outperforms existing methods on standard benchmarks of
COCO-stuff and Visual Genome dataset.
- Abstract(参考訳): 生成モデルの進歩は、特定の構造ガイドラインに固執しながら画像を生成することに大きな関心を惹き起こした。
シーングラフから画像生成は、与えられたシーングラフと一致する画像を生成するタスクの1つです。
しかし、視覚的なシーンの複雑さは、シーングラフ内の特定の関係に基づいてオブジェクトを正確に整列させることに挑戦する。
既存の手法では、まずシーンレイアウトを予測し、敵のトレーニングを用いてこれらのレイアウトから画像を生成する。
本研究では,シーングラフから画像を生成する新しい手法を導入し,中間レイアウトの予測を不要にする。
トレーニング済みのテキスト-画像拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
そこで我々はまず,GANベースのトレーニングを用いて,グラフ特徴と対応する画像のCLIP特徴とを一致させるために,グラフエンコーダを事前訓練する。
さらに、与えられたシーングラフに存在するオブジェクトラベルのクリップ埋め込みとグラフの特徴を融合して、グラフ一貫性のあるクリップガイド条件付け信号を生成する。
条件入力では、オブジェクト埋め込みは画像の粗い構造を提供し、グラフ特徴はオブジェクト間の関係に基づいた構造的アライメントを提供する。
最後に,再構成とクリップアライメント損失を伴うグラフ整合コンディショニング信号を用いて,事前学習した拡散モデルを微調整する。
精巧な実験により,coco-stuff と visual genome dataset の標準ベンチマークで既存の手法を上回った。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - SPAN: Learning Similarity between Scene Graphs and Images with Transformers [29.582313604112336]
本稿では,シーングラフと画像の類似性を計測するScene graPh-imAge coNtrastive learning framework, SPANを提案する。
本稿では,シーングラフを構造的エンコーディングを伴うシーケンスに変換する新しいグラフシリアライズ手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T18:13:36Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。