Fugu-MT 論文翻訳(概要): Chat-Based Support Alone May Not Be Enough: Comparing Conversational and Embedded LLM Feedback for Mathematical Proof Learning

論文の概要: Chat-Based Support Alone May Not Be Enough: Comparing Conversational and Embedded LLM Feedback for Mathematical Proof Learning

arxiv url: http://arxiv.org/abs/2602.18807v1
Date: Sat, 21 Feb 2026 11:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.326147
Title: Chat-Based Support Alone May Not Be Enough: Comparing Conversational and Embedded LLM Feedback for Mathematical Proof Learning
Title（参考訳）: 数学的証明学習における会話型と埋め込み型LLMフィードバックの比較
Authors: Eason Chen, Sophia Judicke, Kayla Beigh, Xinyi Tang, Isabel Wang, Nina Yuan, Zimo Xiao, Chuangji Li, Shizhuo Li, Reed Luttmer, Shreya Singh, Maria Yampolsky, Naman Parikh, Yvonne Zhao, Meiyi Chen, Scarlett Huang, Anishka Mohanty, Gregory Johnson, John Mackey, Jionghao Lin, Ken Koedinger,
Abstract要約: GPTutorは、学部の離散数学コースのためのLLMベースのチューターシステムである。それは2つのツールを統合している: 構造化された証明レビューツールで、学生が書いた証明の試みを埋め込んだフィードバックと、数学の質問のためのチャットボットを提供する。学生148名を対象にしたスタッガードアクセススタディでは,実験グループのみがシステムを利用する場合,早期アクセスはより高度な宿題のパフォーマンスに関連付けられていた。使用記録によると, 自己効力の低い学生と, 事前試験成績の学生は, 両者をより頻繁に使用していた。
参考スコア（独自算出の注目度）: 4.7092577379077
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluate GPTutor, an LLM-powered tutoring system for an undergraduate discrete mathematics course. It integrates two LLM-supported tools: a structured proof-review tool that provides embedded feedback on students' written proof attempts, and a chatbot for math questions. In a staggered-access study with 148 students, earlier access was associated with higher homework performance during the interval when only the experimental group could use the system, while we did not observe this performance increase transfer to exam scores. Usage logs show that students with lower self-efficacy and prior exam performance used both components more frequently. Session-level behavioral labels, produced by human coding and scaled using an automated classifier, characterize how students engaged with the chatbot (e.g., answer-seeking or help-seeking). In models controlling for prior performance and self-efficacy, higher chatbot usage and answer-seeking behavior were negatively associated with subsequent midterm performance, whereas proof-review usage showed no detectable independent association. Together, the findings suggest that chatbot-based support alone may not reliably support transfer to independent assessment of math proof-learning outcomes, whereas work-anchored, structured feedback appears less associated with reduced learning.
Abstract（参考訳）: GPTutor は,大学生の個別数学コースにおける LLM を利用した授業システムである。 LLMをサポートする2つのツールを統合している: 構造化された証明レビューツールで、学生が書いた証明の試みに埋め込まれたフィードバックを提供する。学生148名を対象にした調査では,実験グループのみがシステムを利用することができる期間に,早期アクセスはより高い宿題能力に関連付けられていたが,成績が試験結果に反映されることは見つからなかった。使用記録によると, 自己効力の低い学生と, 事前試験成績の学生は, 両者をより頻繁に使用していた。セッションレベルの行動ラベルは、人間のコーディングによって作成され、自動分類器を使用してスケールされた。先行性能と自己効力性を制御するモデルでは,より高いチャットボット使用率と回答探索行動がその後の中期成績と負の相関を示した。その結果,チャットボットをベースとしたサポートだけでは,数学の証明学習結果の独立性評価への移動を確実に支援できないことが示唆された。

関連論文リスト

Automated Feedback Generation for Undergraduate Mathematics: Development and Evaluation of an AI Teaching Assistant [0.0]
本稿では,自由形式の自然言語入力を処理し,幅広いエッジケースを処理し,提出された証明の技術的正確性についてコメントする。評価した指標から、生成したフィードバックの質は、人間の専門家が生成したものに匹敵することを示した。私たちのツールのバージョンは、帝国数学の宿題プラットフォームLambdaにデプロイされます。
論文参考訳（メタデータ） (2026-01-06T23:02:22Z)
Evaluating the Effectiveness of Large Language Models in Solving Simple Programming Tasks: A User-Centered Study [1.0467092641687232]
本研究では,ChatGPT-4oとのインタラクションスタイルの違いが,単純なプログラミングタスクにおけるユーザパフォーマンスに与える影響について検討する。 15人の高校生が3種類のモデルで3つの問題を完成させた。
論文参考訳（メタデータ） (2025-07-05T13:52:31Z)
Can Large Language Models Help Students Prove Software Correctness? An Experimental Study with Dafny [75.55915044740566]
コンピューティング教育の学生は、ChatGPTのような大きな言語モデル(LLM)をますます利用している。本稿では,Dafny の形式的検証演習において,学生が LLM とどのように相互作用するかを検討する。
論文参考訳（メタデータ） (2025-06-27T16:34:13Z)
PyEvalAI: AI-assisted evaluation of Jupyter Notebooks for immediate personalized feedback [43.56788158589046]
PyEvalAIは、プライバシを保護するために、ユニットテストとローカルにホストされた言語モデルを組み合わせてJupyterノートをスコアする。あるケーススタディは、大学レベルの数値科目における演習のフィードバック速度の向上と学習効率の向上に効果を示す。
論文参考訳（メタデータ） (2025-02-25T18:20:20Z)
"My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays [6.810086342993699]
本稿では,対話型フィードバックを自動生成するContestable AI Empowered LLM FrameworkであるCAELFを紹介する。 CAELFは、マルチエージェントシステムと計算的議論を統合することで、学生がフィードバックをクエリし、挑戦し、明確化することができる。ユーザスタディを用いた500の批判的思考エッセイのケーススタディでは,CAELFが対話的フィードバックを大幅に改善することが示された。
論文参考訳（メタデータ） (2024-09-11T17:59:01Z)
Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。 CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文参考訳（メタデータ） (2023-11-16T06:27:35Z)
Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文参考訳（メタデータ） (2023-09-15T02:42:03Z)
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文参考訳（メタデータ） (2023-07-05T20:16:20Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)
Distilling ChatGPT for Explainable Automated Student Answer Assessment [19.604476650824516]
本稿では,最先端の大規模言語モデルであるChatGPTを用いて,学生の回答スコアリングと合理性生成の同時タスクを探索する新しいフレームワークを提案する。提案手法は,ChatGPTと比較してQWK全体のスコアを11%改善することを示した。
論文参考訳（メタデータ） (2023-05-22T12:11:39Z)
Active Teacher for Semi-Supervised Object Detection [80.10937030195228]
半教師対象検出(SSOD)のための能動教師と呼ばれる新しいアルゴリズムを提案する。 Active Teacherは、教師/学生のフレームワークを反復的なバージョンに拡張し、ラベルセットを部分的に段階的に拡張し、ラベルなし例の3つの重要な要素を評価する。この設計により、Active Teacherは、擬似ラベルの品質を改善しながら、限られたラベル情報の効果を最大化することができる。
論文参考訳（メタデータ） (2023-03-15T03:59:27Z)
Plagiarism deterrence for introductory programming [11.612194979331179]
クラス全体の統計的特徴は直感的な新しいp値によって学生と明確に共有することができる。圧縮に基づく類似度検出アルゴリズムは、代入間の関係をより正確に捉える。無バイアスのスコアリングシステムは、学生とインストラクターが真の努力の独立を理解するのを助ける。
論文参考訳（メタデータ） (2022-06-06T18:47:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。