論文の概要: DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?
- arxiv url: http://arxiv.org/abs/2505.16915v1
- Date: Thu, 22 May 2025 17:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.485094
- Title: DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?
- Title(参考訳): DetailMaster: テキストから画像へのモデルは長押しできるのか?
- Authors: Qirui Jiao, Daoyuan Chen, Yilun Huang, Xika Lin, Ying Shen, Yaliang Li,
- Abstract要約: DetailMasterはテキスト・ツー・イメージ(T2I)モデルを評価するために設計された最初の総合ベンチマークである。
このベンチマークは、専門家アノテータによって高品質な検証がなされた、平均284.89トークンの長大かつ詳細なプロンプトで構成されている。
7つの汎用T2Iモデルと5つの長周期最適化T2Iモデルの評価は、重要な性能限界を示す。
- 参考スコア(独自算出の注目度): 30.739878622982847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent text-to-image (T2I) models show impressive capabilities in synthesizing images from brief descriptions, their performance significantly degrades when confronted with long, detail-intensive prompts required in professional applications. We present DetailMaster, the first comprehensive benchmark specifically designed to evaluate T2I models' systematical abilities to handle extended textual inputs that contain complex compositional requirements. Our benchmark introduces four critical evaluation dimensions: Character Attributes, Structured Character Locations, Multi-Dimensional Scene Attributes, and Explicit Spatial/Interactive Relationships. The benchmark comprises long and detail-rich prompts averaging 284.89 tokens, with high quality validated by expert annotators. Evaluation on 7 general-purpose and 5 long-prompt-optimized T2I models reveals critical performance limitations: state-of-the-art models achieve merely ~50% accuracy in key dimensions like attribute binding and spatial reasoning, while all models showing progressive performance degradation as prompt length increases. Our analysis highlights systemic failures in structural comprehension and detail overload handling, motivating future research into architectures with enhanced compositional reasoning. We open-source the dataset, data curation code, and evaluation tools to advance detail-rich T2I generation and enable broad applications that would otherwise be infeasible due to the lack of a dedicated benchmark.
- Abstract(参考訳): 最近のテキスト・トゥ・イメージ(T2I)モデルは、短い記述から画像を合成する際、印象的な機能を示しているが、その性能はプロのアプリケーションで必要とされる長く詳細なプロンプトに直面すると著しく低下する。
DetailMasterは,T2Iモデルの複雑な構成要求を含む拡張テキスト入力処理能力を評価するために設計された,最初の総合ベンチマークである。
本ベンチマークでは, 特徴属性, 構造的特徴位置, 多次元シーン属性, 明示的空間・対話的関係の4つの重要な評価次元を紹介した。
このベンチマークは、専門家アノテータによって高品質な検証がなされた、平均284.89トークンの長大かつ詳細なプロンプトで構成されている。
7つの汎用T2Iモデルと5つのロングプロンプト最適化T2Iモデルの評価は重要な性能の限界を明らかにしている。
本分析では,構造的理解と詳細なオーバーロード処理におけるシステム障害に注目し,構造的推論の強化によるアーキテクチャの今後の研究を動機付けている。
データセット、データキュレーションコード、評価ツールをオープンソースにして、詳細に富んだT2I生成を推進し、専用のベンチマークが欠如しているため、そうでなければ不可能な幅広いアプリケーションを可能にする。
関連論文リスト
- Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models [6.140839748607505]
Detail++はプログレッシブ・ディテール・インジェクション(PDI)生成のためのトレーニング不要のフレームワークである。
複雑なプロンプトを単純化されたサブプロンプト列に分解し、生成プロセスを段階的に導く。
T2I-CompBenchと新たに構築されたスタイルコンポジションベンチマークの実験は、Detail++が既存のメソッドよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2025-07-23T18:20:46Z) - LVLM-Composer's Explicit Planning for Image Generation [0.0]
LVLM-Composerは,合成画像の高機能化に特化して開発された新しい10ビリオンパラメータスケールLVLMである。
提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。
Gemini-2.0-Flash と InternVL3-78B による自動評価を利用した LongBench-T2I ベンチマークの実験では、LVLM-Composer が重要な構成次元にわたって優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-05T20:21:03Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文 参考訳(メタデータ) (2025-05-30T16:48:14Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [25.301280441283147]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
その結果,命令対応検索データセットの微調整モデルでは性能が向上するが,ほとんどのモデルでは命令順守に欠けることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - ImageInWords: Unlocking Hyper-Detailed Image Descriptions [36.373619800014275]
ImageInWords (IIW) はハイパー詳細画像記述をキュレートするためのヒューマン・イン・ザ・ループ・フレームワークである。
包括性、特異性、幻覚などの最近のデータセットと比較して大きな伸びを示している。
また、IIWデータによる微調整により、従来の作業でトレーニングされたモデルに対して、わずか9kのサンプルであっても、これらのメトリクスを+31%改善することを示す。
論文 参考訳(メタデータ) (2024-05-05T02:15:11Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。