論文の概要: MathGen: Revealing the Illusion of Mathematical Competence through Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2603.27959v1
- Date: Mon, 30 Mar 2026 02:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.194347
- Title: MathGen: Revealing the Illusion of Mathematical Competence through Text-to-Image Generation
- Title(参考訳): MathGen: テキスト・ツー・イメージ生成による数学的能力のイライラ
- Authors: Ruiyao Liu, Hui Shen, Ping Zhang, Yunta Hsieh, Yifan Zhang, Jing Xu, Sicheng Chen, Junchen Li, Jiawei Lu, Jianing Ma, Jiaqi Mo, Qi Han, Zhen Zhang, Zhongwei Wan, Jing Xiong, Xin Wang, Ziyuan Liu, Hangrui Cao, Ngai Wong,
- Abstract要約: 7つのコアドメインにまたがる900の問題の厳密なベンチマークであるMathGenを紹介する。
オープンソースおよびプロプライエタリなテキスト・ツー・イメージモデルは、数学的忠実さが大きなボトルネックであることを示している。
全体として、現在のT2Iモデルは、基本的な数学的視覚生成にも適していない。
- 参考スコア(独自算出の注目度): 37.74857807039394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern generative models have demonstrated the ability to solve challenging mathematical problems. In many real-world settings, however, mathematical solutions must be expressed visually through diagrams, plots, geometric constructions, and structured symbolic layouts, where correctness depends on precise visual composition. Can generative models still do so when the answer must be rendered visually rather than written in text? To study this problem, we introduce MathGen, a rigorous benchmark of 900 problems spanning seven core domains, each paired with an executable verifier under a Script-as-a-Judge protocol for deterministic and objective evaluation. Experiments on representative open-source and proprietary text-to-image models show that mathematical fidelity remains a major bottleneck: even the best closed-source model reaches only 42.0% overall accuracy, while open-source models achieve just ~ 1-11%, often near 0% on structured tasks. Overall, current T2I models remain far from competent at even elementary mathematical visual generation.
- Abstract(参考訳): 現代の生成モデルは、挑戦的な数学的問題を解く能力を示した。
しかし、多くの実世界の環境では、数学的解は図、プロット、幾何学的構成、構造化された記号配置を通して視覚的に表現されなければならない。
生成モデルは、答がテキストで書かれるのではなく、視覚的にレンダリングされなければならないときに、まだそうすることができるのか?
そこで本研究では,7つのコアドメインにまたがる900の問題の厳密なベンチマークであるMathGenをScript-as-a-Judgeプロトコルで検証し,決定性と客観的評価を行う。
一般的なオープンソースおよびプロプライエタリなテキスト・ツー・イメージモデルの実験では、数学的忠実度は依然として大きなボトルネックであり、最高のクローズドソースモデルでさえ全体の精度は42.0%に過ぎず、オープンソースモデルはわずか1-11%で、構造化されたタスクでは0%近くである。
全体として、現在のT2Iモデルは、基本的な数学的視覚生成にも適していない。
関連論文リスト
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - VisTIRA: Closing the Image-Text Modality Gap in Visual Math Reasoning via Structured Tool Integration [2.7403985180660784]
視覚言語モデル(VLM)は、同じ問題がテキストではなく画像として提示される場合、数学的推論においてテキストのみの言語モデルより遅れる。
本稿では、与えられた数学問題を(画像として)自然言語の有理数に分解することで、構造化された問題解決を可能にするツール統合推論フレームワークであるVisTIRAを紹介する。
ツール統合監視により画像ベース推論が向上し,OCRグラウンド化により,より小さなモデルのギャップをさらに狭めることができることを示す。
論文 参考訳(メタデータ) (2026-01-20T19:54:49Z) - IGenBench: Benchmarking the Reliability of Text-to-Infographic Generation [23.503207781680103]
本稿では,テキスト・ツー・インフォグラフィック・ジェネレーションの信頼性を評価するための最初のベンチマークであるIGENBENCHを提案する。
質問レベルの精度 (Q-ACC) とインフォグラフィックレベルの精度 (I-ACC) が得られる。
私たちの体系的な分析は、将来のモデル開発における重要な洞察を明らかにします。
論文 参考訳(メタデータ) (2026-01-08T02:06:53Z) - MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning [58.776297011268845]
本稿では,数学の本質的なVCoT機能を備えた大規模マルチモーダルモデルを実現するための包括的フレームワークを提案する。
我々のモデルであるBAGEL-canvasは、強力なLMMベースラインよりも86%の相対的な改善を実現しています。
我々の研究は、LMMにおける複雑なヒューマンライクな視覚支援推論をアンロックするためのツールキット・フレームワーク、データセット、ベンチマークを完全提供する。
論文 参考訳(メタデータ) (2025-10-16T17:58:58Z) - CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。
我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:55Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。