論文の概要: TIQA: Human-Aligned Text Quality Assessment in Generated Images
- arxiv url: http://arxiv.org/abs/2603.07119v1
- Date: Sat, 07 Mar 2026 09:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.889492
- Title: TIQA: Human-Aligned Text Quality Assessment in Generated Images
- Title(参考訳): TIQA:生成した画像のテキスト品質評価
- Authors: Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova,
- Abstract要約: テキスト品質評価(TIQA)は,収穫されたテキスト領域内の描画テキストの忠実度を人間の判断に合わせるスカラー品質スコアを予測するタスクである。
例えば、アンチQAを用いてベスト・オブ・5世代を選択すると、人文品質が平均で+14%向上する。
- 参考スコア(独自算出の注目度): 42.874268801024066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text rendering remains a persistent failure mode of modern text-to-image models (T2I), yet existing evaluations rely on OCR correctness or VLM-based judging procedures that are poorly aligned with perceptual text artifacts. We introduce Text-in-Image Quality Assessment (TIQA), a task that predicts a scalar quality score that matches human judgments of rendered-text fidelity within cropped text regions. We release two MOS-labeled datasets: TIQA-Crops (10k text crops) and TIQA-Images (1,500 images), spanning 20+ T2I models, including proprietary ones. We also propose ANTIQA, a lightweight method with text-specific biases, and show that it improves correlation with human scores over OCR confidence, VLM judges, and generic NR-IQA metrics by at least $\sim0.05$ on TIQA-Crops and $\sim0.08$ on TIQA-Images, as measured by PLCC. Finally, we show that TIQA models are valuable in downstream tasks: for example, selecting the best-of-5 generations with ANTIQA improves human-rated text quality by $+14\%$ on average, demonstrating practical value for filtering and reranking in generation pipelines.
- Abstract(参考訳): テキストレンダリングは現代のテキスト・ツー・イメージ・モデル(T2I)の永続的な障害モードであり続けているが、既存の評価はOCRの正確性やVLMベースの判断手順に依存しており、知覚的なテキストアーティファクトと整合性が低い。
テキスト品質評価(TIQA)は,収穫されたテキスト領域内の描画テキストの忠実度を人間の判断に合わせるスカラー品質スコアを予測するタスクである。
TIQA-Crops (10kテキスト作物)とTIQA-Images (1500イメージ)の2つのMOSラベル付きデータセットをリリースし、プロプライエタリなものを含む20以上のT2Iモデルにまたがる。
また,テキスト固有のバイアスを持つ軽量な手法であるAntiQAを提案し,PLCCが測定した,少なくともTIQA-Cropsでは$\sim0.05$,TIQA-Imageでは$\sim0.08$でOCR信頼度,VLM判断,NR-IQA測定値との相関性を改善することを示す。
最後に、TIQAモデルがダウンストリームタスクにおいて有用であることを示す。例えば、AntiQAでベスト5世代を選択すると、平均$+14\%のテキスト品質が向上し、生成パイプラインにおけるフィルタリングと再ランク付けの実用的な価値が示される。
関連論文リスト
- EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。