論文の概要: DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images
- arxiv url: http://arxiv.org/abs/2501.14877v1
- Date: Fri, 24 Jan 2025 19:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:33.134915
- Title: DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images
- Title(参考訳): DrawEduMath:エキスパート注釈付き学生の手書き数学画像を用いた視覚言語モデルの評価
- Authors: Sami Baral, Li Lucy, Ryan Knight, Alice Ng, Luca Soldaini, Neil T. Heffernan, Kyle Lo,
- Abstract要約: DrawEduMathは、数学問題に対する学生の手書き回答の2,030枚の画像からなる英語のデータセットである。
教師は、各画像のフリーフォーム記述と11,661対の質問回答(QA)を含む詳細なアノテーションを提供した。
最先端のビジョン言語モデルでさえ、DrawEduMathの質問に多くの改善の余地があることを示します。
- 参考スコア(独自算出の注目度): 19.425346207453927
- License:
- Abstract: In real-world settings, vision language models (VLMs) should robustly handle naturalistic, noisy visual content as well as domain-specific language and concepts. For example, K-12 educators using digital learning platforms may need to examine and provide feedback across many images of students' math work. To assess the potential of VLMs to support educators in settings like this one, we introduce DrawEduMath, an English-language dataset of 2,030 images of students' handwritten responses to K-12 math problems. Teachers provided detailed annotations, including free-form descriptions of each image and 11,661 question-answer (QA) pairs. These annotations capture a wealth of pedagogical insights, ranging from students' problem-solving strategies to the composition of their drawings, diagrams, and writing. We evaluate VLMs on teachers' QA pairs, as well as 44,362 synthetic QA pairs derived from teachers' descriptions using language models (LMs). We show that even state-of-the-art VLMs leave much room for improvement on DrawEduMath questions. We also find that synthetic QAs, though imperfect, can yield similar model rankings as teacher-written QAs. We release DrawEduMath to support the evaluation of VLMs' abilities to reason mathematically over images gathered with educational contexts in mind.
- Abstract(参考訳): 現実の環境では、視覚言語モデル(VLM)は自然主義的でノイズの多い視覚コンテンツやドメイン固有の言語や概念をしっかりと扱わなければならない。
例えば、デジタル学習プラットフォームを用いたK-12教育者は、学生の数学作品の多くの画像を調べ、フィードバックを与える必要があるかもしれない。
このような設定で教育者を支援するためのVLMの可能性を評価するために,K-12問題に対する学生の手書き回答の2,030枚の画像からなる英語データセットDrawEduMathを紹介した。
教師は、各画像のフリーフォーム記述と11,661対の質問回答(QA)を含む詳細なアノテーションを提供した。
これらのアノテーションは、学生の問題解決戦略から、図面、図、文章の構成まで、多くの教育的な洞察を捉えている。
教師のQAペアのVLMと、言語モデル(LM)を用いた教師の説明から得られた44,362の合成QAペアについて評価を行った。
最先端のVLMでさえ、DrawEduMathの質問に多くの改善の余地があることを示します。
また、合成QAは不完全であるが、教師が書き込んだQAと同様のモデルランキングが得られることも見出した。
我々は,教育的文脈を念頭において収集した画像を数学的に解析するVLMの評価を支援するために,DrawEduMathをリリースした。
関連論文リスト
- DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models [19.787224412654872]
In-deepth Assessment of Vision-Language Models (VLMs) のための動的視覚数学ベンチマークであるDynaMathを紹介する。
DynaMathには501の高品質でマルチトピックなシード質問が含まれており、それぞれがPythonプログラムとして表現されている。
その結果,10変種すべてにおいて正解された種子質問の割合として定義される最悪のモデル精度は,平均値よりも有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:29:19Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - How Teachers Can Use Large Language Models and Bloom's Taxonomy to
Create Educational Quizzes [5.487297537295827]
本稿では,Bloomの分類学から得られた学習目標を問う,大規模言語モデルに基づくQGアプローチを適用する。
その結果、教師は自動生成された質問でクイズを書くことを好んでおり、手書き版に比べてクイズの品質が損なわれていないことがわかった。
論文 参考訳(メタデータ) (2024-01-11T13:47:13Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Enhancing Textbooks with Visuals from the Web for Improved Learning [50.01434477801967]
本稿では,Webからの画像を用いた教科書を自動的に強化する視覚言語モデルの有効性について検討する。
数学、科学、社会科学、ビジネス分野における電子教科書のデータセットを収集します。
次に,テキスト画像マッチングタスクを設定し,テキスト画像の検索とテキストへの適切な割り当てを行う。
論文 参考訳(メタデータ) (2023-04-18T12:16:39Z) - An AI-based Solution for Enhancing Delivery of Digital Learning for
Future Teachers [6.0988393123743485]
デジタル学習と教育をスケールする上で最も難しい部分の1つは、学習者の知識と能力を評価することである。
本稿では,事前に録音されたビデオ講義から質問を自動的に生成する人工知能ベースのソリューションVidVersityQGを提案する。
論文 参考訳(メタデータ) (2021-11-09T06:15:13Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。