論文の概要: Automated Feedback Generation for Undergraduate Mathematics: Development and Evaluation of an AI Teaching Assistant
- arxiv url: http://arxiv.org/abs/2601.03458v1
- Date: Tue, 06 Jan 2026 23:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.085528
- Title: Automated Feedback Generation for Undergraduate Mathematics: Development and Evaluation of an AI Teaching Assistant
- Title(参考訳): 数学科における自動フィードバック生成:AI教材の開発と評価
- Authors: Aron Gohr, Marie-Amelie Lawn, Kevin Gao, Inigo Serjeant, Stephen Heslip,
- Abstract要約: 本稿では,自由形式の自然言語入力を処理し,幅広いエッジケースを処理し,提出された証明の技術的正確性についてコメントする。
評価した指標から、生成したフィードバックの質は、人間の専門家が生成したものに匹敵することを示した。
私たちのツールのバージョンは、帝国数学の宿題プラットフォームLambdaにデプロイされます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent tutoring systems have long enabled automated immediate feedback on student work when it is presented in a tightly structured format and when problems are very constrained, but reliably assessing free-form mathematical reasoning remains challenging. We present a system that processes free-form natural language input, handles a wide range of edge cases, and comments competently not only on the technical correctness of submitted proofs, but also on style and presentation issues. We discuss the advantages and disadvantages of various approaches to the evaluation of such a system, and show that by the metrics we evaluate, the quality of the feedback generated is comparable to that produced by human experts when assessing early undergraduate homework. We stress-test our system with a small set of more advanced and unusual questions, and report both significant gaps and encouraging successes in that more challenging setting. Our system uses large language models in a modular workflow. The workflow configuration is human-readable and editable without programming knowledge, and allows some intermediate steps to be precomputed or injected by the instructor. A version of our tool is deployed on the Imperial mathematics homework platform Lambdafeedback. We report also on the integration of our tool into this platform.
- Abstract(参考訳): 知的学習システムは、厳密に構造化されたフォーマットで提示され、問題が非常に制約されているが、自由形式の数学的推論を確実に評価する場合、学生の作業に対する即時フィードバックを長年有効にしてきた。
本稿では,自由形式の自然言語入力を処理し,幅広いエッジケースを処理し,提出された証明の技術的正当性だけでなく,スタイルやプレゼンテーションの問題にも有能なコメントを行うシステムを提案する。
このようなシステムの評価に対する様々なアプローチの利点とデメリットについて考察し、評価基準により、得られたフィードバックの質は、初期の学部の宿題を評価する際に人的専門家が生み出すものと同等であることを示す。
私たちは、より先進的で珍しい質問の小さなセットでシステムをストレステストし、大きなギャップを報告し、より困難な環境で成功を奨励します。
私たちのシステムは、モジュラーワークフローで大きな言語モデルを使用します。
ワークフローの構成は、プログラミングの知識なしに人間で読みやすく、編集可能であり、インストラクターによっていくつかの中間ステップをプリコンパイルまたはインジェクションすることができる。
私たちのツールのバージョンは、帝国数学の宿題プラットフォームLambdafeedbackにデプロイされます。
このプラットフォームへの私たちのツールの統合についても報告します。
関連論文リスト
- Stitch: Step-by-step LLM Guided Tutoring for Scratch [1.8206350996077172]
そこで我々は,Stitchを紹介した。Stitchは対話型学習システムで,"答えの描画"をステップバイステップの足場に置き換える。
我々は、Scratchのための最新の自動フィードバック生成ツールと比較し、Stitchを実証的研究で評価した。
論文 参考訳(メタデータ) (2025-10-30T16:03:56Z) - MathMistake Checker: A Comprehensive Demonstration for Step-by-Step Math Problem Mistake Finding by Prompt-Guided LLMs [13.756898876556455]
そこで本研究では,数理問題におけるステップ・バイ・ステップの誤り発見を自動化する新しいシステムであるMathMistake Checkerを提案する。
本システムは,教育的観点からの学習経験を簡素化し,効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2025-03-06T10:19:01Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z) - Automated Grading and Feedback Tools for Programming Education: A
Systematic Review [7.776434991976473]
ほとんどの論文はオブジェクト指向言語における代入の正確性を評価する。
ソースコードの保守性、可読性、ドキュメントを評価するツールは少ない。
ほとんどのツールは、ほぼ即時フィードバックを可能にする完全に自動化されたアセスメントを提供する。
論文 参考訳(メタデータ) (2023-06-20T17:54:50Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。