Fugu-MT 論文翻訳(概要): Benchmarking Spatial Relationships in Text-to-Image Generation

論文の概要: Benchmarking Spatial Relationships in Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2212.10015v1
Date: Tue, 20 Dec 2022 06:03:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 13:25:31.912484
Title: Benchmarking Spatial Relationships in Text-to-Image Generation
Title（参考訳）: テキスト対画像生成における空間関係のベンチマーク
Authors: Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, Yezhou Yang
Abstract要約: 本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。実験の結果,最近のT2Iモデルでは画質は高いが,複数のオブジェクトを生成する能力は著しく制限されていることがわかった。
参考スコア（独自算出の注目度）: 76.7416769653951
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent large-scale text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a large-scale challenge dataset SR2D that contains sentences describing two objects and the spatial relationship between them. We construct and harness an automated evaluation pipeline that employs computer vision to recognize objects and their spatial relationships, and we employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although recent state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations such as left/right/above/below. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgment about spatial understanding. We offer the SR2D dataset and the VISOR metric to the community in support of T2I spatial reasoning research.
Abstract（参考訳）: 空間的理解はコンピュータビジョンの基本的な側面であり、画像に関する人間レベルの推論に不可欠なものであり、基底言語理解にとって重要な要素である。最近の大規模テキストから画像への合成(t2i)モデルは、前例のないフォトリアリズムの改善を示しているが、それらが信頼できる空間理解能力を持っているかどうかは不明である。本稿では,オブジェクト間の空間関係を正確に生成するT2Iモデルと,画像中のテキストに記述された空間関係がどの程度正確に生成されるかを評価する評価指標であるVISORについて述べる。既存のモデルをベンチマークするために,2つのオブジェクトを記述する文とそれらの間の空間的関係を含む大規模チャレンジデータセットSR2Dを導入する。我々は,物体とその空間的関係を認識するためにコンピュータビジョンを利用する自動評価パイプラインを構築し,T2Iモデルの大規模評価に活用する。実験の結果,最新のT2Iモデルでは画像品質が高いが,複数のオブジェクトを生成する能力や,左/右/上/下のような特定の空間関係が著しく制限されていることがわかった。本研究は,t2iモデルのバイアスやアーチファクトとして,複数のオブジェクトの生成の難しさ,最初のオブジェクトを生成するためのバイアス,等価な関係に対する空間的不整合アウトプット,オブジェクト共起性と空間理解能力の相関などを示す。空間的理解に関する人間の判断とVISORの整合性を示す人間の研究を行う。我々は,T2I空間推論研究を支援するために,SR2DデータセットとVISORメトリクスをコミュニティに提供する。

関連論文リスト

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models [23.6849873930169]
テキスト・ツー・イメージ(T2I)モデルは高忠実度画像の生成において顕著な成功を収めているが、複雑な空間関係の処理には失敗することが多い。本稿では,T2Iモデルの空間的インテリジェンスを評価するための新しいベンチマークであるSpatialGenEvalを紹介する。
論文参考訳（メタデータ） (2026-01-28T08:15:00Z)
Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文参考訳（メタデータ） (2025-11-20T08:57:14Z)
Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models [3.5999252362400993]
構成生成における主要な問題は、空間的関係の不整合である。本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
論文参考訳（メタデータ） (2025-06-29T22:41:27Z)
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis [45.625062335269355]
拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
論文参考訳（メタデータ） (2025-04-18T15:21:37Z)
Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文参考訳（メタデータ） (2025-04-16T14:03:24Z)
CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [18.89863162308386]
CoMPaSSはT2Iモデルにおける空間的理解を強化する汎用フレームワークである。まずSCOP(Spatial Constraints-Oriented Pairing)データエンジンでデータのあいまいさに対処する。これらの先行技術を活用するため、CoMPaSSはToken ENcoding ORdering (TENOR)モジュールも導入している。
論文参考訳（メタデータ） (2024-12-17T18:59:50Z)
Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文参考訳（メタデータ） (2024-11-12T09:30:02Z)
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文参考訳（メタデータ） (2024-08-05T04:51:46Z)
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。 CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文参考訳（メタデータ） (2024-07-31T08:42:48Z)
Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文参考訳（メタデータ） (2024-06-17T17:56:01Z)
Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。 4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-04-01T15:55:25Z)
DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文参考訳（メタデータ） (2023-08-18T18:58:54Z)
Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文参考訳（メタデータ） (2020-07-19T01:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。