論文の概要: TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency
- arxiv url: http://arxiv.org/abs/2510.02987v1
- Date: Fri, 03 Oct 2025 13:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.396887
- Title: TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency
- Title(参考訳): TIT-Score:テキスト対画像整合性による長押し型テキスト対画像整合性の評価
- Authors: Juntong Wang, Huiyu Duan, Jiarui Wang, Ziheng Jia, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: LPG-Benchは、ロングプロンプトベースのテキスト・ツー・イメージ・ジェネレーションを評価するための包括的なベンチマークである。
13の最先端モデルから2,600の画像を生成し、包括的なヒューマンランクアノテーションを実行します。
本稿では,TITと呼ばれるテキスト・画像・画像間の整合性に基づくゼロショット計測手法を提案する。
- 参考スコア(独自算出の注目度): 81.17906057429329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large multimodal models (LMMs), recent text-to-image (T2I) models can generate high-quality images and demonstrate great alignment to short prompts. However, they still struggle to effectively understand and follow long and detailed prompts, displaying inconsistent generation. To address this challenge, we introduce LPG-Bench, a comprehensive benchmark for evaluating long-prompt-based text-to-image generation. LPG-Bench features 200 meticulously crafted prompts with an average length of over 250 words, approaching the input capacity of several leading commercial models. Using these prompts, we generate 2,600 images from 13 state-of-the-art models and further perform comprehensive human-ranked annotations. Based on LPG-Bench, we observe that state-of-the-art T2I alignment evaluation metrics exhibit poor consistency with human preferences on long-prompt-based image generation. To address the gap, we introduce a novel zero-shot metric based on text-to-image-to-text consistency, termed TIT, for evaluating long-prompt-generated images. The core concept of TIT is to quantify T2I alignment by directly comparing the consistency between the raw prompt and the LMM-produced description on the generated image, which includes an efficient score-based instantiation TIT-Score and a large-language-model (LLM) based instantiation TIT-Score-LLM. Extensive experiments demonstrate that our framework achieves superior alignment with human judgment compared to CLIP-score, LMM-score, etc., with TIT-Score-LLM attaining a 7.31% absolute improvement in pairwise accuracy over the strongest baseline. LPG-Bench and TIT methods together offer a deeper perspective to benchmark and foster the development of T2I models. All resources will be made publicly available.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の急速な進歩により、最近のテキスト・トゥ・イメージ・モデル(T2I)は高品質な画像を生成し、短いプロンプトに優れたアライメントを示すことができる。
しかし、彼らは長く詳細なプロンプトを効果的に理解し、従うのに苦労し、一貫性のない世代を表示する。
この課題に対処するために,長周期のテキスト・ツー・イメージ生成を評価するための総合ベンチマークであるLPG-Benchを紹介する。
LPG-Benchは200個の細工されたプロンプトを平均250ワード以上備えており、いくつかの主要な商用モデルの入力能力に近づいている。
これらのプロンプトを用いて、13の最先端モデルから2,600の画像を生成し、さらに包括的なヒューマンランクアノテーションを実行する。
LPG-Benchに基づいて、最先端のT2Iアライメント評価指標は、ロングプロンプトに基づく画像生成における人間の嗜好との整合性が低いことを観察した。
このギャップに対処するために,TITと呼ばれるテキスト・画像・画像間の整合性に基づく新しいゼロショットメトリクスを導入し,長めのプロンプト生成画像の評価を行う。
TITのコアコンセプトは、効率的なスコアベースインスタンス化TIT-Scoreと、大規模言語モデル(LLM)ベースのインスタンス化TIT-Score-LLMを含む生成画像上の生のプロンプトとLMM生成記述との一貫性を直接比較することにより、T2Iアライメントの定量化である。
CLIPスコアやLMMスコアなどと比較して,本フレームワークは人間の判断に優れており,TIT-Score-LLMは最強ベースラインよりもペアワイズ精度が7.31%向上している。
LPG-Bench と TIT の手法は、T2I モデルの開発をベンチマークし、促進するためのより深い視点を提供する。
すべてのリソースが公開されます。
関連論文リスト
- AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文 参考訳(メタデータ) (2025-05-30T16:48:14Z) - Multi-Modal Language Models as Text-to-Image Model Evaluators [16.675735328424786]
MT2IE(Multimodal Text-to-Image Eval)は、評価のためのプロンプトを反復的に生成する評価フレームワークである。
MT2IEの即時一貫性スコアは,従来文献に紹介されていたスコアよりも高い相関性を示した。
論文 参考訳(メタデータ) (2025-05-01T17:47:55Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文 参考訳(メタデータ) (2023-12-04T20:47:48Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。