論文の概要: Benchmarking Layout-Guided Diffusion Models through Unified Semantic-Spatial Evaluation in Closed and Open Settings
- arxiv url: http://arxiv.org/abs/2604.25358v1
- Date: Tue, 28 Apr 2026 08:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.771184
- Title: Benchmarking Layout-Guided Diffusion Models through Unified Semantic-Spatial Evaluation in Closed and Open Settings
- Title(参考訳): 閉集合および開集合における統一意味空間評価によるレイアウト誘導拡散モデルのベンチマーク
- Authors: Luca Parolari, Nicla Faccioli, Lamberto Ballan,
- Abstract要約: 本稿では,鍵生成能力を抽出し,迅速な構造とレイアウトの両面で様々なレベルの複雑さを提供するために,クローズドセットベンチマーク(C-Bench)を導入する。
この制御された設定を補完するために,実世界のプロンプトとレイアウトを用いたモデル評価を行うオープンセットベンチマーク(O-Bench)を提案する。
我々は,6つの最先端レイアウト誘導拡散モデルの大規模評価を行い,319,086個の画像を生成し,評価した。
- 参考スコア(独自算出の注目度): 5.994477544297929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating layout-guided text-to-image generative models requires assessing both semantic alignment with textual prompts and spatial fidelity to prescribed layouts. Assessing layout alignment requires collecting fine-grained annotations, which is costly and labor-intensive. Consequently, current benchmarks rarely provide comprehensive layout evaluation and often remain limited in scale or coverage, making model comparison, ranking, and interpretation difficult. In this work, we introduce a closed-set benchmark (C-Bench) designed to isolate key generative capabilities while providing varying levels of complexity in both prompt structure and layout. To complement this controlled setting, we propose an open-set benchmark (O-Bench) that evaluates models using real-world prompts and layouts, offering a measure of semantic and spatial alignment in the wild. We further develop a unified evaluation protocol that combines semantic and spatial accuracy into a single score, ensuring consistent model ranking. Using our benchmarks, we conduct a large-scale evaluation of six state-of-the-art layout-guided diffusion models, totaling 319,086 generated and evaluated images. We establish a model ranking based on their overall performance and provide detailed breakdowns for text and layout alignment to enhance interpretability. Fine-grained analyses across scenarios and prompt complexities highlight the strengths and limitations of current models. Code is available at https://github.com/lparolari/cobench.
- Abstract(参考訳): レイアウト誘導型テキスト画像生成モデルの評価には、テキストプロンプトとのセマンティックアライメントと、所定のレイアウトに対する空間的忠実度の両方を評価する必要がある。
レイアウトのアライメントを評価するには、きめ細かいアノテーションを収集する必要がある。
その結果、現在のベンチマークでは、包括的なレイアウト評価はめったに行われず、スケールやカバレッジが制限されることが多く、モデルの比較、ランキング、解釈が困難になる。
本研究では,鍵生成能力の分離を目的としたクローズド・セット・ベンチマーク (C-Bench) を提案する。
この制御された設定を補完するため、実世界のプロンプトとレイアウトを用いてモデルを評価するオープンセットベンチマーク(O-Bench)を提案し、野生における意味的および空間的アライメントの尺度を提供する。
さらに,意味的および空間的精度を単一のスコアに組み合わせ,一貫したモデルランキングを確保する統一評価プロトコルを開発した。
提案手法を用いて,提案手法を用いて6種類の配置誘導拡散モデルの大規模評価を行い,319,086個の画像の生成と評価を行った。
我々は,その全体的な性能に基づいたモデルランキングを確立し,解釈可能性を高めるために,テキストとレイアウトアライメントの詳細な分析を行う。
シナリオや急激な複雑さに関するきめ細かい分析は、現在のモデルの強みと限界を強調します。
コードはhttps://github.com/lparolari/cobench.comから入手できる。
関連論文リスト
- SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation [62.55421542903781]
生成された画像の空間的レイアウトを評価するために明示的に設計された検証可能な報酬モデルである textbfSpatialReward を提案する。
安定拡散とFLUXの実験により、空間的リワードをRLトレーニングに組み込むことで、空間的一貫性と全体的な生成品質が一貫して向上することが示された。
論文 参考訳(メタデータ) (2026-03-23T17:26:35Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Learning More from Less: Unlocking Internal Representations for Benchmark Compression [37.69575776639016]
異種隠蔽状態を統一潜在空間に整列させて代表コアセットを構成するREPCOREを導入する。
5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-31T13:11:39Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning [0.0]
GRAFTは、命令追従型視覚推論と視覚テキストアライメントのモデルを評価するための構造化マルチモーダルベンチマークである。
生成されたチャートと、Pythonライブラリで作成され、データセマンティクスの制御と明確性を保証する。
論文 参考訳(メタデータ) (2025-08-21T16:13:49Z) - 7Bench: a Comprehensive Benchmark for Layout-guided Text-to-image Models [3.8123588214292745]
レイアウト誘導型テキスト・画像生成における意味的アライメントと空間的アライメントの両方を評価する最初のベンチマークである7Benchを紹介する。
本稿では,空間的精度を評価するためにレイアウトアライメントスコアを組み込んで,既存のフレームワーク上に構築した評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-08-18T13:37:51Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。