論文の概要: Improving Explicit Spatial Relationships in Text-to-Image Generation
through an Automatically Derived Dataset
- arxiv url: http://arxiv.org/abs/2403.00587v1
- Date: Fri, 1 Mar 2024 15:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:53:43.999850
- Title: Improving Explicit Spatial Relationships in Text-to-Image Generation
through an Automatically Derived Dataset
- Title(参考訳): 自動導出データセットによるテキスト・画像生成における空間関係の改善
- Authors: Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa,
Eneko Agirre and Frank Keller
- Abstract要約: 現在のテキスト画像システムは「左」や「下」のような対象間の空間的関係を正確に反映していない
14の空間関係を含む合成キャプションを自動生成する手法を提案する。
異なる2つの安定度モデルを微調整すると、VISOR測定値の最大9ポイントの改善が得られることを示す。
- 参考スコア(独自算出の注目度): 34.22034764327196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work has observed that current text-to-image systems do not
accurately reflect explicit spatial relations between objects such as 'left of'
or 'below'. We hypothesize that this is because explicit spatial relations
rarely appear in the image captions used to train these models. We propose an
automatic method that, given existing images, generates synthetic captions that
contain 14 explicit spatial relations. We introduce the Spatial Relation for
Generation (SR4G) dataset, which contains 9.9 millions image-caption pairs for
training, and more than 60 thousand captions for evaluation. In order to test
generalization we also provide an 'unseen' split, where the set of objects in
the train and test captions are disjoint. SR4G is the first dataset that can be
used to spatially fine-tune text-to-image systems. We show that fine-tuning two
different Stable Diffusion models (denoted as SD$_{SR4G}$) yields up to 9
points improvements in the VISOR metric. The improvement holds in the 'unseen'
split, showing that SD$_{SR4G}$ is able to generalize to unseen objects.
SD$_{SR4G}$ improves the state-of-the-art with fewer parameters, and avoids
complex architectures. Our analysis shows that improvement is consistent for
all relations. The dataset and the code will be publicly available.
- Abstract(参考訳): 既存の研究では、現在のテキスト・画像システムは「左」や「下」のような対象間の空間的関係を正確に反映していない。
これは、これらのモデルを訓練するために使用される画像キャプションに明示的な空間関係がほとんど現れないためである。
既存の画像から、14の明示的な空間関係を含む合成キャプションを生成する自動手法を提案する。
本研究では,990万のイメージキャプチャペアと6万以上のキャプションを含むSR4Gデータセットを紹介する。
一般化をテストするために、列車内のオブジェクトのセットとテストキャプションが分離する'unseen'スプリットも提供します。
SR4Gは空間的に微調整できる最初のデータセットである。
SD$_{SR4G}$と表記される)2つの異なる安定拡散モデルの微調整により、VISOR測定値の最大9ポイントの改善が得られることを示す。
この改善は'unseen'分割に留まり、sd$_{sr4g}$が非seenオブジェクトに一般化できることを示している。
sd$_{sr4g}$はより少ないパラメータで最先端を改善し、複雑なアーキテクチャを避ける。
我々の分析によると、改善はすべての関係に一貫性がある。
データセットとコードは公開される予定だ。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Grounding Spatial Relations in Text-Only Language Models [18.500454769402403]
テキストのみの言語モデル(LM)は,対象の明示的な位置情報が提供される場合,空間的関係を基底として学習することができることを示す。
既製のオブジェクト検出器を用いて画像の言語化を行い,各オブジェクトラベルに位置トークンを付加し,それらの境界ボックスをテキスト形式で表現する。
そこで本研究では,テキストのみのLMがビジョン・アンド・ランゲージモデルより優れ,VSRデータセットの新たな最先端設定を行うことにより,位置が空間関係の接地を可能にすることを示す。
論文 参考訳(メタデータ) (2024-03-20T15:20:30Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。