論文の概要: Catching The Correct Answer Trap: Characterising AI Tutor Blind Spots When Analysing Student Reasoning
- arxiv url: http://arxiv.org/abs/2605.23925v1
- Date: Mon, 20 Apr 2026 10:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.4725
- Title: Catching The Correct Answer Trap: Characterising AI Tutor Blind Spots When Analysing Student Reasoning
- Title(参考訳): 学生の推論分析におけるAIチューターの盲点の特徴
- Authors: Moiz Imran, Sahan Bulathwela,
- Abstract要約: 我々は,正解トラップ(CAT: correct answer trap)と呼ばれる障害モードについて検討する。
Eedi数学プラットフォームから実際の学生の反応を分析すると、これらの失敗の71%が2つの質問タイプに集中していることが分かる。
- 参考スコア(独自算出の注目度): 2.6352293843915606
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Intelligent tutoring systems increasingly provide automated feedback on student work, but robust feedback requires assessing reasoning, not only final answers. We study a failure mode we call the correct answer trap (CAT): models under-detect misconceptions when students reach a correct answer via flawed reasoning. Analysing real student responses from the Eedi mathematics platform, we show that 71% of these failures concentrate in just two question types, both sharing a common structure where flawed reasoning happens to produce the correct numerical answer. Comparing a fine-tuned T5 with a frontier large language model, we find that improved capabilities reduce but do not eliminate the problem (84% vs 57% detection accuracy). Even the best-performing model generates roughly four false alarms for every genuine detection, making stand-alone screening impractical at realistic class sizes. Our findings demonstrate that high overall accuracy can mask critical failures in reasoning assessment, and that careful analysis of student reasoning still benefits from human judgment.
- Abstract(参考訳): 知的学習システムは、学生の作業に自動的なフィードバックを提供する傾向にあるが、堅牢なフィードバックには、最終回答だけでなく推論を評価する必要がある。
我々は,正解トラップ(CAT: correct answer trap)と呼ばれる障害モードについて検討する。
Eedi数学プラットフォームから実際の学生の反応を分析すると、これらの失敗の71%が2つの質問タイプにのみ集中していることが分かる。
細調整されたT5と、よりフロンティアな言語モデルを比較すると、改善された能力は減少するが、問題を排除しない(検出精度は84%対57%)。
最高の性能モデルでさえ、真に検出されるたびにほぼ4つの誤報を発生させ、現実的なクラスサイズではスタンドアローンスクリーニングが非現実的になる。
以上より, 総合的精度は, 推論評価において重大な障害を隠蔽しうること, 学生の推論の慎重な分析は, 人間の判断によっても有効であることが示唆された。
関連論文リスト
- Pause or Fabricate? Training Language Models for Grounded Reasoning [50.104657152302956]
不完全情報に基づくグラウンドド推論のために,対話型強化学習(GRIL)によるグラウンドド推論を提案する。
GRILは推論プロセスを2つの段階に分解する: 明確化と一時停止、利用可能な情報が十分かどうかを識別する。
GSM8K-InsufficientおよびMetaMATH-Insufficientの実験では、GRILは前提検出を大幅に改善し(最大45%)、平均応答長を20%以上削減しながらタスク成功率が30%向上した。
論文 参考訳(メタデータ) (2026-04-21T16:45:29Z) - Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation [46.210941814500906]
本研究は,大規模言語モデル (LLM) が複数選択の散逸を発生させる際の誤解に対する理由について検討する。
私たちの構造化分析は、彼らのプロセスとベストプラクティスの驚くほどの一致を明らかにします。
論文 参考訳(メタデータ) (2026-03-16T17:09:41Z) - Can Consumer Chatbots Reason? A Student-Led Field Experiment Embedded in an "AI-for-All" Undergraduate Course [0.7515394929245942]
本稿では,ジョージ・メイソン大学のUNIV 182(AI4All)の中間プロジェクトとして,学生主導のフィールド実験を行った。
学生は、独自の推論タスクを設計し、現在使われている消費者チャットボット上で実行し、(i)回答の正しさと(ii)推論の有効性を評価した。
OpenAI GPT-5 と Claude 4.5 は最高平均解答精度 (86.2% と 83.8%) を獲得し、Grok 4 (82.5%) と Perplexity (73.1%) が続いた。
論文 参考訳(メタデータ) (2025-12-28T22:51:25Z) - Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors [58.65143578052761]
本稿では,推論誤りの高品質な合成例を構成する新しい手法であるMISTAKEを提案する。
3つの教育課題において,MISTAKEを評価した結果,(1)誤答のシミュレーションにおいて高い精度が得られた。
論文 参考訳(メタデータ) (2025-10-13T15:10:38Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。