論文の概要: IGenBench: Benchmarking the Reliability of Text-to-Infographic Generation
- arxiv url: http://arxiv.org/abs/2601.04498v1
- Date: Thu, 08 Jan 2026 02:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.979758
- Title: IGenBench: Benchmarking the Reliability of Text-to-Infographic Generation
- Title(参考訳): IGenBench: テキストからインフォグラフィック生成の信頼性のベンチマーク
- Authors: Yinghao Tang, Xueding Liu, Boyuan Zhang, Tingfeng Lan, Yupeng Xie, Jiale Lao, Yiyao Wang, Haoxuan Li, Tingting Gao, Bo Pan, Luoxuan Weng, Xiuqi Huang, Minfeng Zhu, Yingchaojie Feng, Yuyu Luo, Wei Chen,
- Abstract要約: 本稿では,テキスト・ツー・インフォグラフィック・ジェネレーションの信頼性を評価するための最初のベンチマークであるIGENBENCHを提案する。
質問レベルの精度 (Q-ACC) とインフォグラフィックレベルの精度 (I-ACC) が得られる。
私たちの体系的な分析は、将来のモデル開発における重要な洞察を明らかにします。
- 参考スコア(独自算出の注目度): 23.503207781680103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infographics are composite visual artifacts that combine data visualizations with textual and illustrative elements to communicate information. While recent text-to-image (T2I) models can generate aesthetically appealing images, their reliability in generating infographics remains unclear. Generated infographics may appear correct at first glance but contain easily overlooked issues, such as distorted data encoding or incorrect textual content. We present IGENBENCH, the first benchmark for evaluating the reliability of text-to-infographic generation, comprising 600 curated test cases spanning 30 infographic types. We design an automated evaluation framework that decomposes reliability verification into atomic yes/no questions based on a taxonomy of 10 question types. We employ multimodal large language models (MLLMs) to verify each question, yielding question-level accuracy (Q-ACC) and infographic-level accuracy (I-ACC). We comprehensively evaluate 10 state-of-the-art T2I models on IGENBENCH. Our systematic analysis reveals key insights for future model development: (i) a three-tier performance hierarchy with the top model achieving Q-ACC of 0.90 but I-ACC of only 0.49; (ii) data-related dimensions emerging as universal bottlenecks (e.g., Data Completeness: 0.21); and (iii) the challenge of achieving end-to-end correctness across all models. We release IGENBENCH at https://igen-bench.vercel.app/.
- Abstract(参考訳): インフォグラフィック(英: Infographics)は、データ視覚化とテキストおよびイラストレーション要素を組み合わせて情報を伝達する複合ビジュアルアーティファクトである。
近年のテキスト・ツー・イメージ(T2I)モデルでは美学的に魅力的な画像が生成されているが、インフォグラフィック生成の信頼性は未だ不明である。
生成したインフォグラフィックは一見正しく見えるが、歪んだデータエンコーディングや不正なテキストコンテンツなど、見落とされがちな問題を含んでいる。
テキスト・インフォグラフィック生成の信頼性を評価するための最初のベンチマークであるIGENBENCHについて述べる。
信頼性検証を原子イエス/ノー質問に分解する自動評価フレームワークを設計する。
我々は,質問レベルの精度 (Q-ACC) とインフォグラフィックレベルの精度 (I-ACC) を判定するために,MLLM(Multimodal large language model) を用いている。
IGENBENCHを用いて10種類の最先端T2Iモデルを総合評価した。
私たちの体系的分析は、将来のモデル開発における重要な洞察を明らかにします。
(i)トップモデルのQ-ACCは0.90、I-ACCは0.49である3階層のパフォーマンス階層。
(二 普遍的ボトルネックとして出現するデータ関連次元(例えば、データ完全性:0.21)及び
三 すべてのモデルにおいてエンドツーエンドの正しさを達成することの難しさ。
IGENBENCHをhttps://igen-bench.vercel.app/でリリースします。
関連論文リスト
- VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering [53.662676566188175]
重要なボトルネックは、パブリックで大規模で高品質なビジュアル質問回答(SVQA)データセットの欠如にある。
本稿では、まず、図形関連テクストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。
このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
論文 参考訳(メタデータ) (2025-11-25T04:14:52Z) - Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.74255946385862]
テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。
1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。
これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-26T14:59:04Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering [13.490305443938817]
我々は,新しい評価指標であるI-HallA (Image Hallucination Evaluation with Question Answering)を紹介する。
I-HallAは視覚的質問応答(VQA)を用いて生成画像の事実性を測定する
I-HallAを用いて5つのTTIモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できないことを明らかにする。
論文 参考訳(メタデータ) (2024-09-19T13:51:21Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Enhancing Question Answering on Charts Through Effective Pre-training Tasks [26.571522748519584]
グラフやプロットに適用した場合の現在のVisualQAモデルの制限に対処する。
以上の結果から,既存のモデルでは,図の構造的・視覚的文脈に関する疑問に答える上で,特に性能が低いことが示唆された。
本稿では,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:40:10Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。