論文の概要: Transformer-based Image Generation from Scene Graphs
- arxiv url: http://arxiv.org/abs/2303.04634v1
- Date: Wed, 8 Mar 2023 14:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:37:28.044174
- Title: Transformer-based Image Generation from Scene Graphs
- Title(参考訳): シーングラフからのトランスフォーマティブ画像生成
- Authors: Renato Sortino, Simone Palazzo, Concetto Spampinato
- Abstract要約: グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
- 参考スコア(独自算出の注目度): 11.443097632746763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-structured scene descriptions can be efficiently used in generative
models to control the composition of the generated image. Previous approaches
are based on the combination of graph convolutional networks and adversarial
methods for layout prediction and image generation, respectively. In this work,
we show how employing multi-head attention to encode the graph information, as
well as using a transformer-based model in the latent space for image
generation can improve the quality of the sampled data, without the need to
employ adversarial models with the subsequent advantage in terms of training
stability. The proposed approach, specifically, is entirely based on
transformer architectures both for encoding scene graphs into intermediate
object layouts and for decoding these layouts into images, passing through a
lower dimensional space learned by a vector-quantized variational autoencoder.
Our approach shows an improved image quality with respect to state-of-the-art
methods as well as a higher degree of diversity among multiple generations from
the same scene graph. We evaluate our approach on three public datasets: Visual
Genome, COCO, and CLEVR. We achieve an Inception Score of 13.7 and 12.8, and an
FID of 52.3 and 60.3, on COCO and Visual Genome, respectively. We perform
ablation studies on our contributions to assess the impact of each component.
Code is available at https://github.com/perceivelab/trf-sg2im
- Abstract(参考訳): グラフ構造化シーン記述は、生成した画像の構成を制御するために、生成モデルで効率的に使用することができる。
従来の手法は,それぞれ,グラフ畳み込みネットワークと,レイアウト予測と画像生成のための逆法の組み合わせに基づいていた。
本研究では,グラフ情報を符号化するためのマルチヘッドアテンションの活用と,画像生成のための潜伏空間におけるトランスフォーマーベースモデルの使用が,トレーニング安定性の面でのアドバイザリモデルの採用を必要とせず,サンプルデータの品質を向上させる方法を示す。
提案手法は、シーングラフを中間オブジェクトレイアウトに符号化し、これらのレイアウトを画像にデコードし、ベクトル量子化された変分オートエンコーダによって学習された低次元空間を通り抜けるトランスフォーマアーキテクチャに基づいている。
本手法は,最先端の手法による画質の向上と,同一のシーングラフから複数の世代間での多様性の高まりを示す。
我々は、Visual Genome、COCO、CLEVRの3つの公開データセットに対するアプローチを評価した。
開始スコアは13.7と12.8、fidは52.3と60.3をcocoと視覚ゲノムでそれぞれ達成した。
それぞれのコンポーネントの影響を評価するために、コントリビューションに関するアブレーション研究を行います。
コードはhttps://github.com/perceivelab/trf-sg2imで入手できる。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs [0.0]
シーングラフから画像を生成する新しい手法を提案する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
実験により,本手法は標準ベンチマークにおける既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-25T11:46:31Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - SPAN: Learning Similarity between Scene Graphs and Images with Transformers [29.582313604112336]
本稿では,シーングラフと画像の類似性を計測するScene graPh-imAge coNtrastive learning framework, SPANを提案する。
本稿では,シーングラフを構造的エンコーディングを伴うシーケンスに変換する新しいグラフシリアライズ手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T18:13:36Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Relation Transformer Network [25.141472361426818]
本稿では,シーングラフ生成と関係予測のためのトランスフォーメーションを提案する。
我々はトランスのエンコーダ・デコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
我々の関係予測モジュールは学習ノードとエッジ埋め込みから有向関係を分類する。
論文 参考訳(メタデータ) (2020-04-13T20:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。