論文の概要: Evaluating Reasoning Fidelity in Visual Text Generation
- arxiv url: http://arxiv.org/abs/2606.04479v1
- Date: Wed, 03 Jun 2026 05:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.575871
- Title: Evaluating Reasoning Fidelity in Visual Text Generation
- Title(参考訳): ビジュアルテキスト生成における推論忠実度の評価
- Authors: Jiajun Hong, Jiawei Zhou,
- Abstract要約: モデルが推論過程を画像として表現しなければならない視覚テキスト生成における推論忠実度を評価する。
現在のT2Iモデルは、しばしば意味的誤り、論理的不整合、誤った中間ステップを生成する。
本研究は,視覚的テキスト生成と手続き的推論の間に大きなギャップがあることを示し,より信頼性の高い視覚的テキスト推論を動機とした。
- 参考スコア(独自算出の注目度): 5.272106655533596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image (T2I) models can render highly legible and well-structured text within images, enabling applications including document generation and slide generation. However, it remains unclear whether such systems faithfully preserve reasoning ability when complex solutions must be expressed directly through rendered text, or whether they merely imitate surface-level patterns. We investigate this question by evaluating reasoning fidelity in visual text generation, where models must express complete reasoning processes as images. Our evaluation includes long text rendering, factual knowledge probing, context understanding, and multi-step reasoning. Across these settings, we find that current T2I models frequently produce semantic errors, logical inconsistencies, and incorrect intermediate steps, even when the rendered text appears visually clear. These failures contrast with the strong reasoning performance of text-only models on the same tasks. Our findings reveal a substantial gap between visual text generation and procedural reasoning, motivating more reliable visual text reasoning.
- Abstract(参考訳): 最近のテキスト・トゥ・イメージ (T2I) モデルは、画像内で非常に正確でよく構造化されたテキストを描画でき、文書生成やスライド生成を含むアプリケーションを可能にする。
しかし、複雑な解を描画されたテキストで直接表現しなければならない場合の推論能力を忠実に保っているのか、あるいは単に表面レベルのパターンを模倣しているだけなのかは定かではない。
本稿では,モデルが完全な推論過程を画像として表現しなければならない視覚テキスト生成における推論忠実度を評価することによって,この問題を考察する。
我々の評価には、長いテキストレンダリング、事実知識探索、文脈理解、多段階推論が含まれる。
これらの設定の中で、現在のT2Iモデルでは、レンダリングされたテキストが視覚的に明確であったとしても、しばしば意味的誤り、論理的不整合、不正確な中間ステップが生成される。
これらの失敗は、同じタスクにおけるテキストのみのモデルの強い推論性能とは対照的である。
本研究は,視覚的テキスト生成と手続き的推論の間に大きなギャップがあることを示し,より信頼性の高い視覚的テキスト推論を動機とした。
関連論文リスト
- TextEditBench: Evaluating Reasoning-aware Text Editing Beyond Rendering [18.337757379089037]
画像中のテキスト中心領域の総合評価ベンチマークであるTextEditBenchを紹介する。
本ベンチマークでは, 物理的妥当性, 言語的意味, 相互依存をモデルで理解する必要のある, 推論集約的な編集シナリオを強調した。
また,意味的整合性,文脈的コヒーレンス,モーダル間の整合性を維持するためのモデルの推論能力を測定するセマンティック期待(Semantic expectation)を新たに提案する。
論文 参考訳(メタデータ) (2025-12-18T07:37:08Z) - TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - STRICT: Stress Test of Rendering Images Containing Text [14.124910427202273]
$textbfSTRICT$は、画像内のコヒーレントで命令に沿ったテキストをレンダリングする拡散モデルの能力を強調テストするために設計されたベンチマークである。
プロプライエタリ版やオープンソース版など,いくつかの最先端モデルを評価し,長距離整合性と命令追従能力の持続的制限を明らかにする。
論文 参考訳(メタデータ) (2025-05-25T05:37:08Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。