論文の概要: How effective are VLMs in assisting humans in inferring the quality of mental models from Multimodal short answers?
- arxiv url: http://arxiv.org/abs/2603.00056v1
- Date: Tue, 10 Feb 2026 08:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.007819
- Title: How effective are VLMs in assisting humans in inferring the quality of mental models from Multimodal short answers?
- Title(参考訳): マルチモーダル短期回答からメンタルモデルの品質を推定する上で, VLMはどの程度有効か?
- Authors: Pritam Sil, Durgaprasad Karnam, Vinay Reddy Venumuddala, Pushpak Bhattacharyya,
- Abstract要約: メンタルモデルは、学生のトピックの概念的理解を評価する上で重要な役割を果たす。
MMGraderは、概念グラフを分析フレームワークとして、学生のメンタルモデルの品質をマルチモーダル応答から推定する。
精度の向上により、これらは教室全体のメンタルモデルを推定する上で、教師にとって非常に効果的なアシスタントとなる。
- 参考スコア(独自算出の注目度): 38.304584579482054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: STEM Mental models can play a critical role in assessing students' conceptual understanding of a topic. They not only offer insights into what students know but also into how effectively they can apply, relate to, and integrate concepts across various contexts. Thus, students' responses are critical markers of the quality of their understanding and not entities that should be merely graded. However, inferring these mental models from student answers is challenging as it requires deep reasoning skills. We propose MMGrader, an approach that infers the quality of students' mental models from their multimodal responses using concept graphs as an analytical framework. In our evaluation with 9 openly available models, we found that the best-performing models fall short of human-level performance. This is because they only achieved an accuracy of approximately 40%, a prediction error of 1.1 units, and a scoring distribution fairly aligned with human scoring patterns. With improved accuracy, these can be highly effective assistants to teachers in inferring the mental models of their entire classrooms, enabling them to do so efficiently and help improve their pedagogies more effectively by designing targeted help sessions and lectures that strengthen areas where students collectively demonstrate lower proficiency.
- Abstract(参考訳): STEMメンタルモデルは、学生のトピックの概念的理解を評価する上で重要な役割を果たす。
彼らは、学生が知っていることに関する洞察を提供するだけでなく、どのように効果的に適用し、関係し、様々な文脈にまたがる概念を統合できるかについての洞察を提供する。
したがって、学生の反応は理解の質の重要マーカーであり、単に格付けすべき存在ではない。
しかし、学生の回答からこれらのメンタルモデルを推定することは、深い推論スキルを必要とするため困難である。
本稿では,概念グラフを分析フレームワークとして用いたマルチモーダル応答から,学生のメンタルモデルの品質を推定するMMGraderを提案する。
9つの公開モデルで評価したところ、最高の性能モデルは人間レベルの性能に欠けていることが判明した。
これは、精度が約40%、予測誤差が1.1で、スコアリング分布が人間のスコアリングパターンとよく一致しているためである。
精度の向上により、これらは教師にとって、教室全体のメンタルモデルを推定する上で、非常に効果的なアシスタントとなり、学生が総合的に低い習熟度を示す領域を強化する目標のヘルプセッションや講義を設計することで、より効果的に教育を改善することができる。
関連論文リスト
- UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文 参考訳(メタデータ) (2025-11-12T01:27:02Z) - Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension? [8.558834738072363]
大規模言語モデル (LLMs) は、知能学習システム (ITSs) の開発において、代用学生としての利用が増えている。
我々は,4,8,12の数学と読解に関する全国教育進歩評価(NAEP)から,489項目のデータセットを収集した。
本研究では,11種類の多種多様かつ最先端のLLMを実生と同じ能力尺度に位置づけるために,IRTモデルを適用した。
論文 参考訳(メタデータ) (2025-07-11T00:36:57Z) - MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving [3.2962799070467432]
本稿では,大規模言語モデル(LLM)の学習者の数学的問題解決プロセスの評価と適応的なフィードバックを提供する能力について考察する。
モデルが学生の事前回答履歴にアクセス可能なシナリオと、コールドスタートコンテキストをシミュレートするシナリオの2つについて、パーソナライズされた学習を支援するモデルの能力を評価する。
論文 参考訳(メタデータ) (2025-05-23T15:59:39Z) - Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Student Data Paradox and Curious Case of Single Student-Tutor Model: Regressive Side Effects of Training LLMs for Personalized Learning [25.90420385230675]
パーソナライズされた教育の追求は、知的学習システムの開発におけるLarge Language Models(LLM)の統合につながった。
我々の研究は、このアプローチの根本的な課題を明らかにする:学生データパラドックス」
このパラドックスは、学習者の行動を理解するために学生データに基づいて訓練されたLLMが、故意に自身の事実的知識と推論能力を損なうときに現れる。
論文 参考訳(メタデータ) (2024-04-23T15:57:55Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Towards Explainable Student Group Collaboration Assessment Models Using
Temporal Representations of Individual Student Roles [12.945344702592557]
学生グループコラボレーションを評価するために,簡単な時間-CNN深層学習モデルを提案する。
学生グループコラボレーション評価における動的に変化する特徴表現の適用性を検討する。
また、ディープラーニングモデルの決定に繋がった重要な時間指標をよりよく理解し、解釈するために、Grad-CAM視覚化を使用します。
論文 参考訳(メタデータ) (2021-06-17T16:00:08Z) - Deep Discourse Analysis for Generating Personalized Feedback in
Intelligent Tutor Systems [4.716555240531893]
ITS(Intelligent Tutoring System)で、自動化されたパーソナライズされたフィードバックの作成を検討します。
我々のゴールは、学生のより優れた学習目標を達成するために、学生の回答の正しい概念と間違った概念を見極めることである。
論文 参考訳(メタデータ) (2021-03-13T20:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。