論文の概要: SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance
- arxiv url: http://arxiv.org/abs/2405.15321v1
- Date: Fri, 24 May 2024 08:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:31:04.187738
- Title: SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance
- Title(参考訳): SG-Adapter:Scene Graph Guidanceによるテキスト・画像生成の強化
- Authors: Guibao Shen, Luozhou Wang, Jiantao Lin, Wenhang Ge, Chaozhe Zhang, Xin Tao, Yuan Zhang, Pengfei Wan, Zhongyuan Wang, Guangyong Chen, Yijun Li, Ying-Cong Chen,
- Abstract要約: 本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
- 参考スコア(独自算出の注目度): 46.77060502803466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-to-image generation have been propelled by the development of diffusion models and multi-modality learning. However, since text is typically represented sequentially in these models, it often falls short in providing accurate contextualization and structural control. So the generated images do not consistently align with human expectations, especially in complex scenarios involving multiple objects and relationships. In this paper, we introduce the Scene Graph Adapter(SG-Adapter), leveraging the structured representation of scene graphs to rectify inaccuracies in the original text embeddings. The SG-Adapter's explicit and non-fully connected graph representation greatly improves the fully connected, transformer-based text representations. This enhancement is particularly notable in maintaining precise correspondence in scenarios involving multiple relationships. To address the challenges posed by low-quality annotated datasets like Visual Genome, we have manually curated a highly clean, multi-relational scene graph-image paired dataset MultiRels. Furthermore, we design three metrics derived from GPT-4V to effectively and thoroughly measure the correspondence between images and scene graphs. Both qualitative and quantitative results validate the efficacy of our approach in controlling the correspondence in multiple relationships.
- Abstract(参考訳): テキスト・画像生成の最近の進歩は、拡散モデルとマルチモーダリティ学習の発展によって促進されている。
しかしながら、テキストは通常これらのモデルで逐次的に表現されるため、正確な文脈化と構造制御を提供するには不足することが多い。
したがって、生成した画像は、特に複数のオブジェクトや関係を含む複雑なシナリオにおいて、人間の期待と一貫して一致しない。
本稿では,シーングラフの構造化表現を利用して,元のテキスト埋め込みにおける不正確さを補正するScene Graph Adapter(SG-Adapter)を提案する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
この強化は、複数の関係を含むシナリオにおける正確な対応を維持する上で特に顕著である。
Visual Genomeのような低品質のアノテートデータセットによって引き起こされる課題に対処するため、高度にクリーンでマルチリレーショナルなシーングラフイメージのペアデータセットであるMultiRelsを手作業でキュレートしました。
さらに、画像とシーングラフの対応性を効果的かつ徹底的に測定するために、GPT-4Vから派生した3つのメトリクスを設計する。
定性的かつ定量的な結果は、複数の関係における対応性を制御する上で、我々のアプローチの有効性を検証するものである。
関連論文リスト
- Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - JointGT: Graph-Text Joint Representation Learning for Text Generation
from Knowledge Graphs [44.06715423776722]
本論文では,ジョイントGTと呼ばれるグラフテキスト共同表現学習モデルを提案する。
エンコーディング中、各トランスフォーマー層にプラグインされた構造対応セマンティックアグリゲーションモジュールを考案した。
種々のKG-to-textデータセット上で,JointGTが新たな最先端性能を得ることを示す。
論文 参考訳(メタデータ) (2021-06-19T14:10:10Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。