論文の概要: Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy
- arxiv url: http://arxiv.org/abs/2409.17904v1
- Date: Thu, 26 Sep 2024 14:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 17:03:54.416997
- Title: Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy
- Title(参考訳): 形式的数学評価におけるエッジケースの学習:AMMOREデータセットとチェーン・オブ・ソート・プロンプティングを用いてグラディング精度を向上させる
- Authors: Owen Henkel, Hannah Horne-Robinson, Maria Dyshel, Nabil Ch, Baptiste Moreau-Pernet, Ralph Abood,
- Abstract要約: 本稿では,Rori による 53,000 個の質問応答対の新たなデータセットである AMMORE を紹介する。
2つの実験により,大規模言語モデル(LLM)を用いて,難解な学生の回答を段階的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces AMMORE, a new dataset of 53,000 math open-response question-answer pairs from Rori, a learning platform used by students in several African countries and conducts two experiments to evaluate the use of large language models (LLM) for grading particularly challenging student answers. The AMMORE dataset enables various potential analyses and provides an important resource for researching student math acquisition in understudied, real-world, educational contexts. In experiment 1 we use a variety of LLM-driven approaches, including zero-shot, few-shot, and chain-of-thought prompting, to grade the 1% of student answers that a rule-based classifier fails to grade accurately. We find that the best-performing approach -- chain-of-thought prompting -- accurately scored 92% of these edge cases, effectively boosting the overall accuracy of the grading from 98.7% to 99.9%. In experiment 2, we aim to better understand the consequential validity of the improved grading accuracy, by passing grades generated by the best-performing LLM-based approach to a Bayesian Knowledge Tracing (BKT) model, which estimated student mastery of specific lessons. We find that relatively modest improvements in model accuracy at the individual question level can lead to significant changes in the estimation of student mastery. Where the rules-based classifier currently used to grade student, answers misclassified the mastery status of 6.9% of students across their completed lessons, using the LLM chain-of-thought approach this misclassification rate was reduced to 2.6% of students. Taken together, these findings suggest that LLMs could be a valuable tool for grading open-response questions in K-12 mathematics education, potentially enabling encouraging wider adoption of open-ended questions in formative assessment.
- Abstract(参考訳): 本稿では,アフリカ諸国の学生が使用する学習プラットフォームであるRoriの53,000の数学的オープン応答型質問応答ペアの新しいデータセットであるAMMOREを紹介し,特に難解な学生の回答を学習するために,大規模言語モデル(LLM)を用いた2つの実験を行った。
AMMOREデータセットは、様々な潜在的な分析を可能にし、未調査の現実世界、教育の文脈において、学生の数学習得を研究するための重要なリソースを提供する。
実験1では、ゼロショット、少数ショット、チェーン・オブ・シークレットなどのLCM駆動型アプローチを用いて、ルールベースの分類器が正確に評価できないという回答の1%を格付けする。
これらのエッジケースの92%を正確に評価し、グレードの全体的な精度を98.7%から99.9%に向上させた。
実験2では、特定の授業の生徒の熟達度を推定するベイズ的知識追跡(BKT)モデルに対して、最良性能のLCMベースのアプローチによって生成された成績を合格させることにより、改善されたグレーディング精度の連続的妥当性をよりよく理解することを目的としている。
個々の質問レベルでのモデル精度の比較的緩やかな改善は、学生の熟達度の推定に大きな変化をもたらすことが判明した。
ルールベース分類器が現在学生に使われている場合、解答は修了した学生の6.9%の熟達度を誤分類し、LLMチェーン・オブ・シークレットを用いてこの誤分類率を2.6%に引き下げた。
これらの結果から,LLMはK-12数学教育におけるオープン応答型質問の学習に有用なツールであり,形式的評価におけるオープン応答型質問の広範な採用を促進する可能性が示唆された。
関連論文リスト
- Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。
我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。
2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文 参考訳(メタデータ) (2024-10-29T16:57:45Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - A Predictive Model using Machine Learning Algorithm in Identifying
Students Probability on Passing Semestral Course [0.0]
本研究では,データマイニング手法の分類とアルゴリズムのための決定木を用いる。
新たに発見された予測モデルを利用することで、生徒の現在のコースを合格する確率の予測は、0.7619の精度、0.8333の精度、0.8823のリコール、0.8571のf1のスコアを与える。
論文 参考訳(メタデータ) (2023-04-12T01:57:08Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - LANA: Towards Personalized Deep Knowledge Tracing Through
Distinguishable Interactive Sequences [21.67751919579854]
今後の質問に対する学生の回答を予測するために、Leveled Attentive KNowledge TrAcing(LANA)を提案します。
新しい学生関連特徴抽出装置(SRFE)を使用して、学生固有の特性をそれぞれのインタラクティブシーケンスから蒸留します。
ピボットモジュールは、個々の学生のためのデコーダを再構築し、グループのためのレベル付き学習特化エンコーダにより、パーソナライズされたDKTを実現した。
論文 参考訳(メタデータ) (2021-04-21T02:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。