論文の概要: VISTAR:A User-Centric and Role-Driven Benchmark for Text-to-Image Evaluation
- arxiv url: http://arxiv.org/abs/2508.06152v1
- Date: Fri, 08 Aug 2025 09:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.170863
- Title: VISTAR:A User-Centric and Role-Driven Benchmark for Text-to-Image Evaluation
- Title(参考訳): VISTAR:テキスト・ツー・イメージ評価のためのユーザ中心とロール駆動ベンチマーク
- Authors: Kaiyuan Jiang, Ruoxi Sun, Ying Cao, Yuqi Xu, Xinran Zhang, Junyan Guo, ChengSheng Deng,
- Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)評価のためのユーザ中心の多次元ベンチマークであるVISTARを提案する。
物理的に定量化できる属性に対して決定論的でスクリプト可能なメトリクスを使用する。
ベンチマークは、2,845のプロンプトを15,000以上の人間対比較で検証している。
- 参考スコア(独自算出の注目度): 15.513836968440053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VISTAR, a user-centric, multi-dimensional benchmark for text-to-image (T2I) evaluation that addresses the limitations of existing metrics. VISTAR introduces a two-tier hybrid paradigm: it employs deterministic, scriptable metrics for physically quantifiable attributes (e.g., text rendering, lighting) and a novel Hierarchical Weighted P/N Questioning (HWPQ) scheme that uses constrained vision-language models to assess abstract semantics (e.g., style fusion, cultural fidelity). Grounded in a Delphi study with 120 experts, we defined seven user roles and nine evaluation angles to construct the benchmark, which comprises 2,845 prompts validated by over 15,000 human pairwise comparisons. Our metrics achieve high human alignment (>75%), with the HWPQ scheme reaching 85.9% accuracy on abstract semantics, significantly outperforming VQA baselines. Comprehensive evaluation of state-of-the-art models reveals no universal champion, as role-weighted scores reorder rankings and provide actionable guidance for domain-specific deployment. All resources are publicly released to foster reproducible T2I assessment.
- Abstract(参考訳): 既存のメトリクスの限界に対処するテキスト・ツー・イメージ(T2I)評価のための,ユーザ中心の多次元ベンチマークであるVISTARを提案する。
VISTARは、物理的に定量化された属性(例えば、テキストのレンダリング、ライティング)に決定論的でスクリプト可能なメトリクスと、抽象的な意味論(例えば、スタイル融合、文化的忠実性)を評価するために制約付き視覚言語モデルを使用する新しい階層的重み付きP/N質問(HWPQ)スキームを採用。
120人の専門家によるDelphiの研究では、ベンチマークを構築するために7つのユーザロールと9つの評価アングルを定義しました。
HWPQスキームは抽象的意味論において85.9%の精度に達し、VQAベースラインを著しく上回っている。
最先端モデルの総合的な評価では、ロール重み付けスコアがランキングをリオーダーし、ドメイン固有のデプロイメントのための実用的なガイダンスを提供するため、普遍的なチャンピオンは現れない。
すべてのリソースが公開され、再現可能なT2Iアセスメントが促進される。
関連論文リスト
- Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content [53.680220823229895]
テキスト間コンテンツヒンジを評価するには、視覚的品質とアライメントの2つの重要な側面がある。
テキスト間コンテンツ(Q-EVAL-100K)の視覚的品質とアライメントレベルを評価するためのデータセットを提案する。
本稿では,Q-Eval-Scoreを提案する。Q-Eval-Scoreは視覚的品質とアライメントの両方を評価できる統一モデルであり,長文のアライメントを処理できる。
論文 参考訳(メタデータ) (2025-03-04T07:28:45Z) - Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings [32.77190832269137]
我々は、異なる人間のテンプレート間でモデルを識別できるスキルベースのベンチマークを導入する。
4つのテンプレートと4つのT2Iモデルにまたがって人間の評価を収集し、合計100Kのアノテーションを作成します。
既存の指標よりも人間の評価と相関した新しいQAベースの自動評価指標を導入する。
論文 参考訳(メタデータ) (2024-04-25T17:58:43Z) - A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文 参考訳(メタデータ) (2023-12-04T20:47:48Z) - VisIT-Bench: A Benchmark for Vision-Language Instruction Following
Inspired by Real-World Use [49.574651930395305]
VisIT-Benchは、命令追従型視覚言語モデルの評価のためのベンチマークである。
提案データセットは592個のテストクエリからなり,それぞれに人手による指示条件付きキャプションを付与した。
人的評価と自動評価の両方を用いて,モデルと参照間の品質ギャップを定量化する。
論文 参考訳(メタデータ) (2023-08-12T15:27:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。