論文の概要: 7Bench: a Comprehensive Benchmark for Layout-guided Text-to-image Models
- arxiv url: http://arxiv.org/abs/2508.12919v1
- Date: Mon, 18 Aug 2025 13:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.35745
- Title: 7Bench: a Comprehensive Benchmark for Layout-guided Text-to-image Models
- Title(参考訳): 7Bench: レイアウト誘導型テキスト-画像モデルのための総合ベンチマーク
- Authors: Elena Izzo, Luca Parolari, Davide Vezzaro, Lamberto Ballan,
- Abstract要約: レイアウト誘導型テキスト・画像生成における意味的アライメントと空間的アライメントの両方を評価する最初のベンチマークである7Benchを紹介する。
本稿では,空間的精度を評価するためにレイアウトアライメントスコアを組み込んで,既存のフレームワーク上に構築した評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 3.8123588214292745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layout-guided text-to-image models offer greater control over the generation process by explicitly conditioning image synthesis on the spatial arrangement of elements. As a result, their adoption has increased in many computer vision applications, ranging from content creation to synthetic data generation. A critical challenge is achieving precise alignment between the image, textual prompt, and layout, ensuring semantic fidelity and spatial accuracy. Although recent benchmarks assess text alignment, layout alignment remains overlooked, and no existing benchmark jointly evaluates both. This gap limits the ability to evaluate a model's spatial fidelity, which is crucial when using layout-guided generation for synthetic data, as errors can introduce noise and degrade data quality. In this work, we introduce 7Bench, the first benchmark to assess both semantic and spatial alignment in layout-guided text-to-image generation. It features text-and-layout pairs spanning seven challenging scenarios, investigating object generation, color fidelity, attribute recognition, inter-object relationships, and spatial control. We propose an evaluation protocol that builds on existing frameworks by incorporating the layout alignment score to assess spatial accuracy. Using 7Bench, we evaluate several state-of-the-art diffusion models, uncovering their respective strengths and limitations across diverse alignment tasks. The benchmark is available at https://github.com/Elizzo/7Bench.
- Abstract(参考訳): レイアウト誘導型テキスト・ツー・イメージモデルは、要素の空間配置に画像合成を明示的に条件付けすることにより、生成プロセスをより制御する。
その結果、コンテンツ生成から合成データ生成まで、多くのコンピュータビジョンアプリケーションで採用が増加している。
重要な課題は、画像、テキストプロンプト、レイアウトの正確なアライメントを達成し、意味的忠実性と空間的正確性を保証することである。
最近のベンチマークではテキストアライメントが評価されているが、レイアウトアライメントは見過ごされ、既存のベンチマークではその両方を共同で評価していない。
このギャップは、合成データのレイアウト誘導生成において重要なモデル空間の忠実度を評価する能力を制限する。
本研究では,レイアウト誘導型テキスト・画像生成における意味的アライメントと空間的アライメントの両方を評価する最初のベンチマークである7Benchを紹介する。
テキストとレイアウトのペアは、オブジェクト生成、色忠実度、属性認識、オブジェクト間の関係、空間制御など、難易度の高い7つのシナリオにまたがる。
本稿では,空間的精度を評価するためにレイアウトアライメントスコアを組み込んで,既存のフレームワーク上に構築した評価プロトコルを提案する。
7Benchを用いて,様々なアライメントタスクにおけるそれぞれの強みと限界を明らかにすることによって,最先端拡散モデルの評価を行った。
ベンチマークはhttps://github.com/Elizzo/7Bench.comで公開されている。
関連論文リスト
- RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation [28.029569617900894]
RefVNLIは、1回のランでテキストアライメントと主題保存の両方を評価する費用効率の指標である。
我々は,ビデオ推論ベンチマークと画像摂動から得られた大規模データセットを訓練した。
論文 参考訳(メタデータ) (2025-04-24T12:44:51Z) - What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation [29.42202665594218]
Scene-Benchは、自然シーンの生成における現実的一貫性の評価と強化を目的とした総合的なベンチマークである。
Scene-Benchは、シーングラフに注釈を付けた100万の画像の大規模なデータセットであるMegaSGと、新しい評価指標であるSGScoreで構成されている。
本研究では,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。
論文 参考訳(メタデータ) (2024-11-23T03:40:25Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-10-27T07:47:47Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。