論文の概要: EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
- arxiv url: http://arxiv.org/abs/2602.00095v1
- Date: Fri, 23 Jan 2026 21:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.378419
- Title: EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
- Title(参考訳): EDU-CIRCUIT-HW:実世界における大学レベルのSTEM学生手書き解を用いたマルチモーダル大言語モデルの評価
- Authors: Weiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang,
- Abstract要約: EDU-CIRCUIT-HWは,大学レベルのSTEMコースから1,300以上の学生の手書きソリューションからなるデータセットである。
各種MLLMの上流認識精度と下流オートグレーディング性能を同時に評価した。
MLLMで認識された学生の手書きコンテンツの中で,潜伏障害の驚くべき規模が明らかになった。
- 参考スコア(独自算出の注目度): 11.523324370139143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) hold significant promise for revolutionizing traditional education and reducing teachers' workload. However, accurately interpreting unconstrained STEM student handwritten solutions with intertwined mathematical formulas, diagrams, and textual reasoning poses a significant challenge due to the lack of authentic and domain-specific benchmarks. Additionally, current evaluation paradigms predominantly rely on the outcomes of downstream tasks (e.g., auto-grading), which often probe only a subset of the recognized content, thereby failing to capture the MLLMs' understanding of complex handwritten logic as a whole. To bridge this gap, we release EDU-CIRCUIT-HW, a dataset consisting of 1,300+ authentic student handwritten solutions from a university-level STEM course. Utilizing the expert-verified verbatim transcriptions and grading reports of student solutions, we simultaneously evaluate various MLLMs' upstream recognition fidelity and downstream auto-grading performance. Our evaluation uncovers an astonishing scale of latent failures within MLLM-recognized student handwritten content, highlighting the models' insufficient reliability for auto-grading and other understanding-oriented applications in high-stakes educational settings. In solution, we present a case study demonstrating that leveraging identified error patterns to preemptively detect and rectify recognition errors, with only minimal human intervention (approximately 4% of the total solutions), can significantly enhance the robustness of the deployed AI-enabled grading system on unseen student solutions.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、従来の教育に革命をもたらし、教師の作業量を減らすことを約束する。
しかし、厳密なSTEMの学生の手書きによる解法は、数学式、図式、テキスト推論で正確に解釈することは、真のベンチマークとドメイン固有のベンチマークが欠如していることから、大きな課題となる。
さらに、現在の評価パラダイムは、しばしば認識されたコンテンツのサブセットのみを探索するダウンストリームタスク(例えばオートグレーディング)の結果に大きく依存しているため、MLLMの複雑な手書き論理全体の理解を捉えることができない。
このギャップを埋めるために、大学レベルのSTEMコースから1,300以上の学生の手書きソリューションからなるデータセットであるEDU-CIRCUIT-HWをリリースする。
各種MLLMの上流認識精度と下流自動階調性能を同時に評価した。
評価の結果,MLLMが認識した学生の手書きコンテンツにおける潜伏障害の驚くべき規模が明らかになった。
本稿では,認識誤りをプリエンプティブに検出・修正するために識別誤りパターンを利用するケーススタディについて,人間の介入(全体の約4%)を最小限に抑えることで,未確認の学生ソリューションに対するAI対応グルーピングシステムの堅牢性を大幅に向上させることを実証する。
関連論文リスト
- SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving [24.689620248781214]
大規模言語モデル(LLM)は、様々な数学的なベンチマークで顕著な結果を得た。
最終回答か推論プロセスに焦点をあてた共通評価手法は、問題解決手順全体を評価するのに失敗する。
この結果から,現在のLCMの真の弱点が明らかとなり,新たな指標であるオールパススコア(All-Pass Score)のモチベーションが得られた。
論文 参考訳(メタデータ) (2025-05-22T13:18:24Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
BloomWiseは認知にインスパイアされた大規模言語モデル(LLM)のプロンプト技術である
解法をより説明しやすいものにしながら、数学的問題解決におけるLLMの性能を高めるように設計されている。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Automated Assessment of Multimodal Answer Sheets in the STEM domain [0.3958317527488535]
この研究は、人工知能(AI)を用いた自動評価手法の実装を通じて、効率的で信頼性の高いグレーティング手法を開発するためのものである。
第一に、STEMにおけるテキスト回答の評価、正確な比較と評価のためのサンプル回答の活用、高度なアルゴリズムと自然言語処理技術によって実現された2つの重要な分野に貢献する。
視覚的表現と意味的意味のギャップを埋めることで,手作業による介入を最小限に抑えつつ,正確な評価を実現する。
論文 参考訳(メタデータ) (2024-09-24T05:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。