論文の概要: LongT2IBench: A Benchmark for Evaluating Long Text-to-Image Generation with Graph-structured Annotations
- arxiv url: http://arxiv.org/abs/2512.09271v1
- Date: Wed, 10 Dec 2025 02:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.376666
- Title: LongT2IBench: A Benchmark for Evaluating Long Text-to-Image Generation with Graph-structured Annotations
- Title(参考訳): LongT2IBench: グラフ構造アノテーションによる長文画像生成の評価ベンチマーク
- Authors: Zhichao Yang, Tianjiao Gu, Jianjie Wang, Feiyu Lin, Xiangfei Sheng, Pengfei Chen, Leida Li,
- Abstract要約: LongT2IBenchは、グラフ化された人間のアノテーションを伴って14Kの長いテキストイメージペアで構成されている。
本稿では,LongT2Iの評価器であるLongT2IExpertを提案する。
- 参考スコア(独自算出の注目度): 26.53088863857899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing popularity of long Text-to-Image (T2I) generation has created an urgent need for automatic and interpretable models that can evaluate the image-text alignment in long prompt scenarios. However, the existing T2I alignment benchmarks predominantly focus on short prompt scenarios and only provide MOS or Likert scale annotations. This inherent limitation hinders the development of long T2I evaluators, particularly in terms of the interpretability of alignment. In this study, we contribute LongT2IBench, which comprises 14K long text-image pairs accompanied by graph-structured human annotations. Given the detail-intensive nature of long prompts, we first design a Generate-Refine-Qualify annotation protocol to convert them into textual graph structures that encompass entities, attributes, and relations. Through this transformation, fine-grained alignment annotations are achieved based on these granular elements. Finally, the graph-structed annotations are converted into alignment scores and interpretations to facilitate the design of T2I evaluation models. Based on LongT2IBench, we further propose LongT2IExpert, a LongT2I evaluator that enables multi-modal large language models (MLLMs) to provide both quantitative scores and structured interpretations through an instruction-tuning process with Hierarchical Alignment Chain-of-Thought (CoT). Extensive experiments and comparisons demonstrate the superiority of the proposed LongT2IExpert in alignment evaluation and interpretation. Data and code have been released in https://welldky.github.io/LongT2IBench-Homepage/.
- Abstract(参考訳): 長いテキスト・トゥ・イメージ(T2I)生成の人気が高まり、長いプロンプトシナリオで画像テキストのアライメントを評価できる自動的かつ解釈可能なモデルに対する緊急の必要性が高まっている。
しかし、既存のT2Iアライメントベンチマークは主に短いプロンプトシナリオに焦点を当てており、MOSやLikertスケールのアノテーションしか提供していない。
この固有の制限は、特にアライメントの解釈可能性の観点から、長いT2I評価器の開発を妨げる。
本研究では,グラフ構造化人間のアノテーションを伴って14Kの長文画像からなるLongT2IBenchをコントリビュートする。
長いプロンプトの詳細な性質を考慮し、まず、エンティティ、属性、関係を含むテキストグラフ構造に変換するジェネレーション-Refine-Qualifyアノテーションプロトコルを設計する。
この変換を通じて、これらの粒度の要素に基づいて微粒なアライメントアノテーションが達成される。
最後に、グラフ構造化アノテーションをアライメントスコアと解釈に変換して、T2I評価モデルの設計を容易にする。
また,LongT2IBenchに基づくLongT2IExpertを提案する。LongT2Iはマルチモーダルな大規模言語モデル(MLLM)を用いて,階層的アライメント・チェーン・オブ・サート(CoT)を用いた命令チューニングプロセスを通じて,定量的なスコアと構造化された解釈を提供する。
大規模な実験と比較は、アライメント評価と解釈において提案されたLongT2IExpertの優位性を示す。
データとコードはhttps://welldky.github.io/LongT2IBench-Homepage/で公開されている。
関連論文リスト
- TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency [81.17906057429329]
LPG-Benchは、ロングプロンプトベースのテキスト・ツー・イメージ・ジェネレーションを評価するための包括的なベンチマークである。
13の最先端モデルから2,600の画像を生成し、包括的なヒューマンランクアノテーションを実行します。
本稿では,TITと呼ばれるテキスト・画像・画像間の整合性に基づくゼロショット計測手法を提案する。
論文 参考訳(メタデータ) (2025-10-03T13:25:16Z) - DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models [9.800887055353096]
本稿では,T2Iモデルの複雑な命令の理解と実行を強化するフレームワークであるDeCoT(Decomposition-CoT)を提案する。
LongBench-T2Iデータセットの大規模な実験は、DeCoTが一貫し、主要なT2Iモデルの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-08-17T15:15:39Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文 参考訳(メタデータ) (2025-05-30T16:48:14Z) - Improving Long-Text Alignment for Text-to-Image Diffusion Models [50.91173337689504]
長文処理のためのセグメントレベル符号化手法を含むLongAlignを提案する。
選好最適化のために、我々はCLIPに基づく選好モデルを微調整拡散モデルに適用する。
テキスト非関連部が微調整時の共通オーバーフィッティング問題に寄与していることが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:46:31Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。