論文の概要: Knowledge Visualization: A Benchmark and Method for Knowledge-Intensive Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2604.22302v1
- Date: Fri, 24 Apr 2026 07:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.38042
- Title: Knowledge Visualization: A Benchmark and Method for Knowledge-Intensive Text-to-Image Generation
- Title(参考訳): 知識の可視化:知識集約型テキスト画像生成のためのベンチマークと方法
- Authors: Ran Zhao, Sheng Jin, Size Wu, Kang Liao, Zerui Gong, Zujin Guo, Yang Xiao, Wei Li,
- Abstract要約: KVBenchは知識集約型T2I生成評価のためのカリキュラムベースベンチマークである。
KVBenchは、生物学、化学、地理学、歴史、数学、物理学の6つの上級科目をカバーしている。
そこで我々は、論理的推論、記号的精度、多言語的堅牢性に重大な欠陥があることを明らかにする。
- 参考スコア(独自算出の注目度): 26.409191201169367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image (T2I) models have demonstrated impressive capabilities in photorealistic synthesis and instruction following. However, their reliability in knowledge-intensive settings remains largely unexplored. Unlike natural image generation, knowledge visualization requires not only semantic alignment but also strict adherence to domain knowledge, structural constraints, and symbolic conventions, exposing a critical gap between visual plausibility and scientific correctness. To systematically study this problem, we introduce KVBench, a curriculum-grounded benchmark for evaluating knowledge-intensive T2I generation. KVBench covers six senior high-school subjects: Biology, Chemistry, Geography, History, Mathematics, and Physics. The benchmark consists of 1,800 expert-curated prompts derived from over 30 authoritative textbooks. Using this benchmark, we evaluate 14 state-of-the-art open- and closed-source models, revealing substantial deficiencies in logical reasoning, symbolic precision, and multilingual robustness, with open-source models consistently underperforming proprietary systems. To address these limitations, we further propose KE-Check, a two-stage framework that improves scientific fidelity via (1) Knowledge Elaboration for structured prompt enrichment, and (2) Checklist-Guided Refinement for explicit constraint enforcement through violation identification and constraint-guided editing. KE-Check effectively mitigates scientific hallucinations, narrowing the performance gap between open-source and leading closed-source models. Data and codes are publicly available at https://github.com/zhaoran66/KVBench.
- Abstract(参考訳): 近年のテキスト・トゥ・イメージ(T2I)モデルでは、光実写合成と命令追従の優れた機能を示している。
しかし、知識集約的な設定における信頼性はほとんど解明されていない。
自然画像生成とは異なり、知識視覚化には意味的アライメントだけでなく、ドメイン知識、構造的制約、象徴的慣行への厳密な固執も必要であり、視覚的可視性と科学的正当性の間に重要なギャップを露呈する。
この問題を体系的に研究するために,知識集約型T2I生成評価のためのカリキュラムベースベンチマークであるKVBenchを紹介する。
KVBenchは、生物学、化学、地理学、歴史、数学、物理学の6つの上級科目をカバーしている。
このベンチマークは、30以上の権威ある教科書から導かれた1,800以上の専門家によるプロンプトで構成されている。
このベンチマークを用いて、14の最先端のオープンソースモデルとクローズドソースモデルを評価し、論理的推論、記号的精度、多言語的堅牢性に重大な欠陥があることを明らかにする。
これらの制約に対処するため,(1)構造化されたプロンプトエンリッチメントのための知識開発,(2)違反識別と制約誘導編集による明示的な制約執行のためのチェックリストガイドリファインメントという2段階のフレームワークであるKE-Checkを提案する。
KE-Checkは科学的幻覚を効果的に緩和し、オープンソースと主要なクローズドソースモデルのパフォーマンスギャップを狭める。
データとコードはhttps://github.com/zhaoran66/KVBench.comで公開されている。
関連論文リスト
- EruDiff: Refactoring Knowledge in Diffusion Models for Advanced Text-to-Image Synthesis [49.883192716595026]
EruDiffは、難解な暗黙のプロンプトの知識分布を、明確に定義された明示的なアンカーの知識分布と整合させることを目指している。
そこで我々はDK-DM (Diffusion Knowledge Distribution Matching) を開発し、暗黙的なプロンプトの知識分布を、明確に定義された明示的なアンカーの知識分布に登録する。
我々は, きめ細かい補正にNO-RL戦略を用いる。
論文 参考訳(メタデータ) (2026-03-21T14:04:08Z) - GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing [67.29558599215902]
GRADEは、画像編集において、規律に反する知識と推論を評価する最初のベンチマークである。
GRADEは10の学術領域で520の慎重にキュレートされたサンプルで構成されている。
論文 参考訳(メタデータ) (2026-03-12T17:59:52Z) - Few-Step Distillation for Text-to-Image Generation: A Practical Guide [60.99392100471019]
拡散蒸留はクラス条件画像合成を劇的に加速させたが、T2I生成への適用性はまだ不明である。
本稿では,T2I 教師モデル FLUX.1-lite を用いて,最先端の蒸留技術を適用し,比較する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2025-12-15T05:58:36Z) - CLLMRec: LLM-powered Cognitive-Aware Concept Recommendation via Semantic Alignment and Prerequisite Knowledge Distillation [3.200298153814017]
大規模オープンオンラインコース(MOOC)の成長は、概念が不可欠であるパーソナライズされた学習に重大な課題をもたらす。
既存のアプローチは通常、概念的関係を捉えるために異種情報ネットワークや知識グラフに依存し、学習者の認知状態を評価するための知識追跡モデルと組み合わせている。
本稿では,CLLMRecを提案する。CLLMRecは,大規模言語モデルを利用してパーソナライズされた概念レコメンデーションを生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-21T08:37:39Z) - KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models [88.58758610679762]
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) は、認知的なレンズを通してモデルを評価するための診断ベンチマークである。
本研究は,3つの基礎知識タイプ(実例,概念,手続き)にまたがる編集タスクを分類する。
詳細な評価を支援するため,人間の研究により知識ヒントによって強化され,校正された新しい知識プラウザビリティ指標を組み込んだプロトコルを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:08:59Z) - Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion [21.37254997228105]
テキスト・トゥ・イメージ(T2I)拡散モデルは、事実知識をパラメータにエンコードする。
知識編集技術は、対象とする方法でモデル知識を更新することを目的としている。
我々は3つのフェーズに網羅してT2I知識編集フレームワークを設計する。
T2I知識編集のためのシンプルだが効果的なアプローチである textbfMPE を導入する。
論文 参考訳(メタデータ) (2024-09-26T15:07:30Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - VEM$^2$L: A Plug-and-play Framework for Fusing Text and Structure
Knowledge on Sparse Knowledge Graph Completion [14.537509860565706]
本稿では,テキストから抽出した知識と構造化メッセージから抽出した知識を統一化するための,スパース知識グラフ上のプラグイン・アンド・プレイ・フレームワーク VEM2L を提案する。
具体的には、モデルによって得られた知識を2つの非重複部分に分割する。
また、モデルの一般化能力を融合させるために、変分EMアルゴリズムによって証明された新しい融合戦略を提案する。
論文 参考訳(メタデータ) (2022-07-04T15:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。