論文の概要: Chat-Based Support Alone May Not Be Enough: Comparing Conversational and Embedded LLM Feedback for Mathematical Proof Learning
- arxiv url: http://arxiv.org/abs/2602.18807v1
- Date: Sat, 21 Feb 2026 11:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.326147
- Title: Chat-Based Support Alone May Not Be Enough: Comparing Conversational and Embedded LLM Feedback for Mathematical Proof Learning
- Title(参考訳): 数学的証明学習における会話型と埋め込み型LLMフィードバックの比較
- Authors: Eason Chen, Sophia Judicke, Kayla Beigh, Xinyi Tang, Isabel Wang, Nina Yuan, Zimo Xiao, Chuangji Li, Shizhuo Li, Reed Luttmer, Shreya Singh, Maria Yampolsky, Naman Parikh, Yvonne Zhao, Meiyi Chen, Scarlett Huang, Anishka Mohanty, Gregory Johnson, John Mackey, Jionghao Lin, Ken Koedinger,
- Abstract要約: GPTutorは、学部の離散数学コースのためのLLMベースのチューターシステムである。
それは2つのツールを統合している: 構造化された証明レビューツールで、学生が書いた証明の試みを埋め込んだフィードバックと、数学の質問のためのチャットボットを提供する。
学生148名を対象にしたスタッガードアクセススタディでは,実験グループのみがシステムを利用する場合,早期アクセスはより高度な宿題のパフォーマンスに関連付けられていた。
使用記録によると, 自己効力の低い学生と, 事前試験成績の学生は, 両者をより頻繁に使用していた。
- 参考スコア(独自算出の注目度): 4.7092577379077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate GPTutor, an LLM-powered tutoring system for an undergraduate discrete mathematics course. It integrates two LLM-supported tools: a structured proof-review tool that provides embedded feedback on students' written proof attempts, and a chatbot for math questions. In a staggered-access study with 148 students, earlier access was associated with higher homework performance during the interval when only the experimental group could use the system, while we did not observe this performance increase transfer to exam scores. Usage logs show that students with lower self-efficacy and prior exam performance used both components more frequently. Session-level behavioral labels, produced by human coding and scaled using an automated classifier, characterize how students engaged with the chatbot (e.g., answer-seeking or help-seeking). In models controlling for prior performance and self-efficacy, higher chatbot usage and answer-seeking behavior were negatively associated with subsequent midterm performance, whereas proof-review usage showed no detectable independent association. Together, the findings suggest that chatbot-based support alone may not reliably support transfer to independent assessment of math proof-learning outcomes, whereas work-anchored, structured feedback appears less associated with reduced learning.
- Abstract(参考訳): GPTutor は,大学生の個別数学コースにおける LLM を利用した授業システムである。
LLMをサポートする2つのツールを統合している: 構造化された証明レビューツールで、学生が書いた証明の試みに埋め込まれたフィードバックを提供する。
学生148名を対象にした調査では,実験グループのみがシステムを利用することができる期間に,早期アクセスはより高い宿題能力に関連付けられていたが,成績が試験結果に反映されることは見つからなかった。
使用記録によると, 自己効力の低い学生と, 事前試験成績の学生は, 両者をより頻繁に使用していた。
セッションレベルの行動ラベルは、人間のコーディングによって作成され、自動分類器を使用してスケールされた。
先行性能と自己効力性を制御するモデルでは,より高いチャットボット使用率と回答探索行動がその後の中期成績と負の相関を示した。
その結果,チャットボットをベースとしたサポートだけでは,数学の証明学習結果の独立性評価への移動を確実に支援できないことが示唆された。
関連論文リスト
- Automated Feedback Generation for Undergraduate Mathematics: Development and Evaluation of an AI Teaching Assistant [0.0]
本稿では,自由形式の自然言語入力を処理し,幅広いエッジケースを処理し,提出された証明の技術的正確性についてコメントする。
評価した指標から、生成したフィードバックの質は、人間の専門家が生成したものに匹敵することを示した。
私たちのツールのバージョンは、帝国数学の宿題プラットフォームLambdaにデプロイされます。
論文 参考訳(メタデータ) (2026-01-06T23:02:22Z) - Can Large Language Models Help Students Prove Software Correctness? An Experimental Study with Dafny [75.55915044740566]
コンピューティング教育の学生は、ChatGPTのような大きな言語モデル(LLM)をますます利用している。
本稿では,Dafny の形式的検証演習において,学生が LLM とどのように相互作用するかを検討する。
論文 参考訳(メタデータ) (2025-06-27T16:34:13Z) - PyEvalAI: AI-assisted evaluation of Jupyter Notebooks for immediate personalized feedback [43.56788158589046]
PyEvalAIは、プライバシを保護するために、ユニットテストとローカルにホストされた言語モデルを組み合わせてJupyterノートをスコアする。
あるケーススタディは、大学レベルの数値科目における演習のフィードバック速度の向上と学習効率の向上に効果を示す。
論文 参考訳(メタデータ) (2025-02-25T18:20:20Z) - "My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays [6.810086342993699]
本稿では,対話型フィードバックを自動生成するContestable AI Empowered LLM FrameworkであるCAELFを紹介する。
CAELFは、マルチエージェントシステムと計算的議論を統合することで、学生がフィードバックをクエリし、挑戦し、明確化することができる。
ユーザスタディを用いた500の批判的思考エッセイのケーススタディでは,CAELFが対話的フィードバックを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-09-11T17:59:01Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Distilling ChatGPT for Explainable Automated Student Answer Assessment [19.604476650824516]
本稿では,最先端の大規模言語モデルであるChatGPTを用いて,学生の回答スコアリングと合理性生成の同時タスクを探索する新しいフレームワークを提案する。
提案手法は,ChatGPTと比較してQWK全体のスコアを11%改善することを示した。
論文 参考訳(メタデータ) (2023-05-22T12:11:39Z) - Plagiarism deterrence for introductory programming [11.612194979331179]
クラス全体の統計的特徴は直感的な新しいp値によって学生と明確に共有することができる。
圧縮に基づく類似度検出アルゴリズムは、代入間の関係をより正確に捉える。
無バイアスのスコアリングシステムは、学生とインストラクターが真の努力の独立を理解するのを助ける。
論文 参考訳(メタデータ) (2022-06-06T18:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。