論文の概要: DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?
- arxiv url: http://arxiv.org/abs/2505.16915v1
- Date: Thu, 22 May 2025 17:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.485094
- Title: DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?
- Title(参考訳): DetailMaster: テキストから画像へのモデルは長押しできるのか?
- Authors: Qirui Jiao, Daoyuan Chen, Yilun Huang, Xika Lin, Ying Shen, Yaliang Li,
- Abstract要約: DetailMasterはテキスト・ツー・イメージ(T2I)モデルを評価するために設計された最初の総合ベンチマークである。
このベンチマークは、専門家アノテータによって高品質な検証がなされた、平均284.89トークンの長大かつ詳細なプロンプトで構成されている。
7つの汎用T2Iモデルと5つの長周期最適化T2Iモデルの評価は、重要な性能限界を示す。
- 参考スコア(独自算出の注目度): 30.739878622982847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent text-to-image (T2I) models show impressive capabilities in synthesizing images from brief descriptions, their performance significantly degrades when confronted with long, detail-intensive prompts required in professional applications. We present DetailMaster, the first comprehensive benchmark specifically designed to evaluate T2I models' systematical abilities to handle extended textual inputs that contain complex compositional requirements. Our benchmark introduces four critical evaluation dimensions: Character Attributes, Structured Character Locations, Multi-Dimensional Scene Attributes, and Explicit Spatial/Interactive Relationships. The benchmark comprises long and detail-rich prompts averaging 284.89 tokens, with high quality validated by expert annotators. Evaluation on 7 general-purpose and 5 long-prompt-optimized T2I models reveals critical performance limitations: state-of-the-art models achieve merely ~50% accuracy in key dimensions like attribute binding and spatial reasoning, while all models showing progressive performance degradation as prompt length increases. Our analysis highlights systemic failures in structural comprehension and detail overload handling, motivating future research into architectures with enhanced compositional reasoning. We open-source the dataset, data curation code, and evaluation tools to advance detail-rich T2I generation and enable broad applications that would otherwise be infeasible due to the lack of a dedicated benchmark.
- Abstract(参考訳): 最近のテキスト・トゥ・イメージ(T2I)モデルは、短い記述から画像を合成する際、印象的な機能を示しているが、その性能はプロのアプリケーションで必要とされる長く詳細なプロンプトに直面すると著しく低下する。
DetailMasterは,T2Iモデルの複雑な構成要求を含む拡張テキスト入力処理能力を評価するために設計された,最初の総合ベンチマークである。
本ベンチマークでは, 特徴属性, 構造的特徴位置, 多次元シーン属性, 明示的空間・対話的関係の4つの重要な評価次元を紹介した。
このベンチマークは、専門家アノテータによって高品質な検証がなされた、平均284.89トークンの長大かつ詳細なプロンプトで構成されている。
7つの汎用T2Iモデルと5つのロングプロンプト最適化T2Iモデルの評価は重要な性能の限界を明らかにしている。
本分析では,構造的理解と詳細なオーバーロード処理におけるシステム障害に注目し,構造的推論の強化によるアーキテクチャの今後の研究を動機付けている。
データセット、データキュレーションコード、評価ツールをオープンソースにして、詳細に富んだT2I生成を推進し、専用のベンチマークが欠如しているため、そうでなければ不可能な幅広いアプリケーションを可能にする。
関連論文リスト
- Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [25.301280441283147]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
その結果,命令対応検索データセットの微調整モデルでは性能が向上するが,ほとんどのモデルでは命令順守に欠けることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - ImageInWords: Unlocking Hyper-Detailed Image Descriptions [36.373619800014275]
ImageInWords (IIW) はハイパー詳細画像記述をキュレートするためのヒューマン・イン・ザ・ループ・フレームワークである。
包括性、特異性、幻覚などの最近のデータセットと比較して大きな伸びを示している。
また、IIWデータによる微調整により、従来の作業でトレーニングされたモデルに対して、わずか9kのサンプルであっても、これらのメトリクスを+31%改善することを示す。
論文 参考訳(メタデータ) (2024-05-05T02:15:11Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。