論文の概要: Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2601.20354v1
- Date: Wed, 28 Jan 2026 08:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.834783
- Title: Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
- Title(参考訳): テキスト・画像モデルの空間的知能のベンチマーク
- Authors: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは高忠実度画像の生成において顕著な成功を収めているが、複雑な空間関係の処理には失敗することが多い。
本稿では,T2Iモデルの空間的インテリジェンスを評価するための新しいベンチマークであるSpatialGenEvalを紹介する。
- 参考スコア(独自算出の注目度): 23.6849873930169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは高忠実度画像の生成において顕著な成功を収めてきたが、しばしば複雑な空間的関係(例えば、空間知覚、推論、相互作用)を扱うことに失敗する。
これらの重要な側面は、ショートまたはインフォメーションスパースなプロンプト設計のため、現在のベンチマークによって見落とされがちである。
本稿では,T2Iモデルの空間的インテリジェンスを体系的に評価する新しいベンチマークであるSpatialGenEvalを紹介する。
それぞれのプロンプトは10の空間サブドメインと、オブジェクトの位置やレイアウトからオクルージョンや因果関係まで、対応する10の複数選択質問応答ペアを統合している。
21種類の最先端モデルの広範囲な評価により,高次空間推論が主要なボトルネックであることが明らかとなった。
2)情報密度設計の実用性は単純な評価以上のものであることを示すため,SpatialT2Iデータセットを構築した。
15,400のテキストイメージ対と書き直しプロンプトを備えており、情報密度を維持しながら画像の一貫性を確保する。
現在の基礎モデル(例えば、安定拡散XL、Uniworld-V1、OmniGen2)における微調整の結果は、一貫した性能向上(+4.2%、+5.7%、+4.4%)と空間的関係におけるより現実的な影響をもたらし、T2Iモデルにおける空間知性を達成するためのデータ中心のパラダイムを強調している。
関連論文リスト
- REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。