論文の概要: Investigating Large Language Models in Diagnosing Students' Cognitive Skills in Math Problem-solving
- arxiv url: http://arxiv.org/abs/2504.00843v1
- Date: Tue, 01 Apr 2025 14:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:54.565884
- Title: Investigating Large Language Models in Diagnosing Students' Cognitive Skills in Math Problem-solving
- Title(参考訳): 数学問題解決における学生の認知能力診断における大規模言語モデルの検討
- Authors: Hyoungwook Jin, Yoonsu Kim, Dongyun Jung, Seungju Kim, Kiyoon Choi, Jinho Son, Juho Kim,
- Abstract要約: 本研究では,現在最先端の大規模言語モデルが,数学における生徒の認知能力をどのように診断するかを検討する。
110の中学校数学問題に対する639の学生回答からなる新しいベンチマークデータセットであるMathCogを構築した。
評価の結果,現在最先端のLCMでもF1スコアは0.5以下であり,誤った症例に対して強い虚偽の信頼感を示す傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 23.811625065982486
- License:
- Abstract: Mathematics learning entails mastery of both content knowledge and cognitive processing of knowing, applying, and reasoning with it. Automated math assessment primarily has focused on grading students' exhibition of content knowledge by finding textual evidence, such as specific numbers, formulas, and statements. Recent advancements in problem-solving, image recognition, and reasoning capabilities of large language models (LLMs) show promise for nuanced evaluation of students' cognitive skills. Diagnosing cognitive skills needs to infer students' thinking processes beyond textual evidence, which is an underexplored task in LLM-based automated assessment. In this work, we investigate how state-of-the-art LLMs diagnose students' cognitive skills in mathematics. We constructed MathCog, a novel benchmark dataset comprising 639 student responses to 110 expert-curated middle school math problems, each annotated with detailed teachers' diagnoses based on cognitive skill checklists. Using MathCog, we evaluated 16 closed and open LLMs of varying model sizes and vendors. Our evaluation reveals that even the state-of-the-art LLMs struggle with the task, all F1 scores below 0.5, and tend to exhibit strong false confidence for incorrect cases ($r_s=.617$). We also found that model size positively correlates with the diagnosis performance ($r_s=.771$). Finally, we discuss the implications of these findings, the overconfidence issue, and directions for improving automated cognitive skill diagnosis.
- Abstract(参考訳): 数学学習は、コンテンツ知識と、それを理解、適用、推論する認知処理の両方を習得する。
自動数学評価は主に、特定の数、公式、ステートメントなどのテキスト証拠を見つけることによって、学生のコンテンツ知識の展示を格付けすることに焦点を当てている。
大規模言語モデル(LLM)の問題解決,画像認識,推論能力の最近の進歩は,学生の認知能力の微妙な評価を約束することを示している。
認知能力の診断は, 学生の思考過程を, LLMによる自動評価において未調査の課題である文章的証拠を超えて推測する必要がある。
本研究では,最新のLLMが数学における生徒の認知能力をどのように診断するかを検討する。
そこで我々は,110の専門科目数学問題に対する639の学生回答からなる新しいベンチマークデータセットMathCogを構築し,それぞれに認知スキルチェックリストに基づく詳細な教師の診断を行った。
MathCogを用いて、様々なモデルサイズとベンダーの閉かつオープンなLLMを16個評価した。
評価の結果,現在最先端のLLMでも0.5未満のF1スコアを達成でき,不正なケース(r_s=.617$)に対して強い虚偽の信頼感を示す傾向にあることがわかった。
また, モデルサイズは診断性能(r_s=.771$)と正の相関が認められた。
最後に,これらの知見の意義,過信問題,自動認知スキル診断の方向性について論じる。
関連論文リスト
- A Benchmark for Math Misconceptions: Bridging Gaps in Middle School Algebra with AI-Supported Instruction [0.0]
本研究では,中学代数学が人工知能ベースの教育プラットフォームで使用されるための評価ベンチマークを紹介する。
データセットは、代数、一般的な誤り、220の診断例に関する55の誤解を含む。
5人の教育者のうち4人は、学生の誤解の診断や教師の訓練にAIでデータセットを使用することに関心を示した。
論文 参考訳(メタデータ) (2024-12-04T23:10:29Z) - Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads [74.54183505245553]
ジョイントビジョンとテキスト推論のためのAI能力の体系的分析は、現在の科学文献に欠けている。
我々は,子どものオリンピアードからのビジュオ言語問題を用いて,その数学的およびアルゴリズム的推論能力に基づいて,最先端のLVLMを評価した。
以上の結果から,近代のLVLMは,高学年の問題解決において,より強力な推論能力を示す一方で,幼児向けの問題に正しく答える基盤が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-06-22T05:04:39Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving [86.04158840879727]
そこで我々は,強力なLLMを付与し,有能なスキルラベルを数学の質問に割り当てるための,プロンプト誘導型対話手法を開発した。
次に、セマンティッククラスタリングを行い、スキルラベルの粗いファミリーを取得する。
これらの粗いスキルラベルは人間に解釈可能である。
論文 参考訳(メタデータ) (2024-05-20T17:45:26Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z) - Computationally Identifying Funneling and Focusing Questions in
Classroom Discourse [24.279653100481863]
本稿では,授業談話におけるファネリングと集中型質問を計算的に検出するタスクを提案する。
ファネリングと集中型質問にラベル付けされた2,348の教師発話の注釈付きデータセットをリリースする。
我々の最高のモデルである教師付きRoBERTaモデルは、データセットに微調整され、人間の専門家ラベルと.76の強い線形相関と、ポジティブな教育結果を持つ。
論文 参考訳(メタデータ) (2022-07-08T01:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。