論文の概要: Benchmarking Spatial Relationships in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2212.10015v1
- Date: Tue, 20 Dec 2022 06:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:25:31.912484
- Title: Benchmarking Spatial Relationships in Text-to-Image Generation
- Title(参考訳): テキスト対画像生成における空間関係のベンチマーク
- Authors: Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric
Horvitz, Ece Kamar, Chitta Baral, Yezhou Yang
- Abstract要約: 本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
実験の結果,最近のT2Iモデルでは画質は高いが,複数のオブジェクトを生成する能力は著しく制限されていることがわかった。
- 参考スコア(独自算出の注目度): 76.7416769653951
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial understanding is a fundamental aspect of computer vision and integral
for human-level reasoning about images, making it an important component for
grounded language understanding. While recent large-scale text-to-image
synthesis (T2I) models have shown unprecedented improvements in photorealism,
it is unclear whether they have reliable spatial understanding capabilities. We
investigate the ability of T2I models to generate correct spatial relationships
among objects and present VISOR, an evaluation metric that captures how
accurately the spatial relationship described in text is generated in the
image. To benchmark existing models, we introduce a large-scale challenge
dataset SR2D that contains sentences describing two objects and the spatial
relationship between them. We construct and harness an automated evaluation
pipeline that employs computer vision to recognize objects and their spatial
relationships, and we employ it in a large-scale evaluation of T2I models. Our
experiments reveal a surprising finding that, although recent state-of-the-art
T2I models exhibit high image quality, they are severely limited in their
ability to generate multiple objects or the specified spatial relations such as
left/right/above/below. Our analyses demonstrate several biases and artifacts
of T2I models such as the difficulty with generating multiple objects, a bias
towards generating the first object mentioned, spatially inconsistent outputs
for equivalent relationships, and a correlation between object co-occurrence
and spatial understanding capabilities. We conduct a human study that shows the
alignment between VISOR and human judgment about spatial understanding. We
offer the SR2D dataset and the VISOR metric to the community in support of T2I
spatial reasoning research.
- Abstract(参考訳): 空間的理解はコンピュータビジョンの基本的な側面であり、画像に関する人間レベルの推論に不可欠なものであり、基底言語理解にとって重要な要素である。
最近の大規模テキストから画像への合成(t2i)モデルは、前例のないフォトリアリズムの改善を示しているが、それらが信頼できる空間理解能力を持っているかどうかは不明である。
本稿では,オブジェクト間の空間関係を正確に生成するT2Iモデルと,画像中のテキストに記述された空間関係がどの程度正確に生成されるかを評価する評価指標であるVISORについて述べる。
既存のモデルをベンチマークするために,2つのオブジェクトを記述する文とそれらの間の空間的関係を含む大規模チャレンジデータセットSR2Dを導入する。
我々は,物体とその空間的関係を認識するためにコンピュータビジョンを利用する自動評価パイプラインを構築し,T2Iモデルの大規模評価に活用する。
実験の結果,最新のT2Iモデルでは画像品質が高いが,複数のオブジェクトを生成する能力や,左/右/上/下のような特定の空間関係が著しく制限されていることがわかった。
本研究は,t2iモデルのバイアスやアーチファクトとして,複数のオブジェクトの生成の難しさ,最初のオブジェクトを生成するためのバイアス,等価な関係に対する空間的不整合アウトプット,オブジェクト共起性と空間理解能力の相関などを示す。
空間的理解に関する人間の判断とVISORの整合性を示す人間の研究を行う。
我々は,T2I空間推論研究を支援するために,SR2DデータセットとVISORメトリクスをコミュニティに提供する。
関連論文リスト
- DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
提案手法は,複雑なテクスチャプロンプトから複数のオブジェクトを生成する際の制御性と整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [5.256237513030104]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Intrinsic Relationship Reasoning for Small Object Detection [44.68289739449486]
画像やビデオの小さなオブジェクトは通常、独立した個人ではない。その代わりに、意味的および空間的レイアウトの関係を多かれ少なかれ提示する。
本稿では,オブジェクト間の固有意味と空間的レイアウトの関係をモデル化し,推論する,小さなオブジェクト検出のための新しいコンテキスト推論手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T06:03:05Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。