論文の概要: Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2506.03735v1
- Date: Wed, 04 Jun 2025 09:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.249968
- Title: Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image Models
- Title(参考訳): 単語問題に対する教育学的に意味のある視覚生成:テキスト・画像モデルの新しいベンチマークと解析
- Authors: Junling Wang, Anna Rutkiewicz, April Yi Wang, Mrinmaya Sachan,
- Abstract要約: テキスト記述から教育的に意味のある視覚を生成するためのフレームワークであるMath2Visualを提案する。
我々は1,903個のビジュアルの注釈付きデータセットを構築し、テキスト・ツー・イメージ(TTI)モデルを評価する。
- 参考スコア(独自算出の注目度): 40.80541801381895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visuals are valuable tools for teaching math word problems (MWPs), helping young learners interpret textual descriptions into mathematical expressions before solving them. However, creating such visuals is labor-intensive and there is a lack of automated methods to support this process. In this paper, we present Math2Visual, an automatic framework for generating pedagogically meaningful visuals from MWP text descriptions. Math2Visual leverages a pre-defined visual language and a design space grounded in interviews with math teachers, to illustrate the core mathematical relationships in MWPs. Using Math2Visual, we construct an annotated dataset of 1,903 visuals and evaluate Text-to-Image (TTI) models for their ability to generate visuals that align with our design. We further fine-tune several TTI models with our dataset, demonstrating improvements in educational visual generation. Our work establishes a new benchmark for automated generation of pedagogically meaningful visuals and offers insights into key challenges in producing multimodal educational content, such as the misrepresentation of mathematical relationships and the omission of essential visual elements.
- Abstract(参考訳): 視覚は数学語問題(MWP)を教える上で貴重なツールであり、若い学習者は文章の記述を数学的表現に解釈するのに役立つ。
しかし、このようなビジュアルを作成するのは労働集約的であり、このプロセスをサポートする自動化方法が欠如している。
本稿では,MWPテキスト記述から教育的に意味のある視覚を自動生成するMath2Visualを提案する。
Math2Visualは、事前に定義された視覚言語と、数学教師とのインタビューに基づくデザイン空間を活用し、MWPの中核的な数学的関係を説明する。
Math2Visualを用いて、1,903個のビジュアルの注釈付きデータセットを構築し、テキスト・ツー・イメージ(TTI)モデルを評価し、デザインに合わせたビジュアルを生成する。
我々は、さらにいくつかのTTIモデルをデータセットで微調整し、教育視覚生成の改善を実証した。
我々の研究は、教育学的に意味のある視覚を自動生成するための新しいベンチマークを確立し、数学的関係の誤表現や重要な視覚要素の欠落など、マルチモーダルな教育コンテンツを制作する上で重要な課題に対する洞察を提供する。
関連論文リスト
- DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images [19.425346207453927]
DrawEduMathは、数学問題に対する学生の手書き回答の2,030枚の画像からなる英語のデータセットである。
教師は、各画像のフリーフォーム記述と11,661対の質問回答(QA)を含む詳細なアノテーションを提供した。
最先端のビジョン言語モデルでさえ、DrawEduMathの質問に多くの改善の余地があることを示します。
論文 参考訳(メタデータ) (2025-01-24T19:03:42Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - VISTA: Visual Integrated System for Tailored Automation in Math Problem Generation Using LLM [0.5383910843560784]
本稿では,Large Language Models (LLMs) を利用して,コヒーレントな問題テキストとともに複雑な数学的可視化を作成するための新しいマルチエージェントフレームワークを提案する。
我々のアプローチは、正確な視覚支援の生成を単純化するだけでなく、これらの支援を問題の核となる数学的概念と整合させ、問題生成と評価の両方を改善する。
論文 参考訳(メタデータ) (2024-11-08T09:15:56Z) - MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。