論文の概要: Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks
- arxiv url: http://arxiv.org/abs/2603.03512v1
- Date: Tue, 03 Mar 2026 20:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.085402
- Title: Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks
- Title(参考訳): 数学的タスクの認知的要求の分類におけるAIツールのベースライン性能
- Authors: Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey, Christian D. Schunn,
- Abstract要約: 私たちは、認知的要求の4レベルにわたって数学のタスクを分類する能力に基づいて、11のAIツールをテストしました。
平均して、AIツールは認知的需要を63%のケースで正確に分類した。
すべてのツールは、認知的要求の極端にタスクに苦しんだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Teachers face increasing demands on their time, particularly in adapting mathematics curricula to meet individual student needs while maintaining cognitive rigor. This study evaluates whether AI tools can accurately classify the cognitive demand of mathematical tasks, which is important for creating or adapting tasks that support student learning. We tested eleven AI tools: six general-purpose (ChatGPT, Claude, DeepSeek, Gemini, Grok, Perplexity) and five education-specific (Brisk, Coteach AI, Khanmigo, Magic School, School.AI), on their ability to categorize mathematics tasks across four levels of cognitive demand using a research-based framework. The goal was to approximate the performance teachers will achieve with straightforward prompts. On average, AI tools accurately classified cognitive demand in only 63% of cases. Education-specific tools were not more accurate than general-purpose tools, and no tool exceeded 83% accuracy. All tools struggled with tasks at the extremes of cognitive demand (Memorization and Doing Mathematics), exhibiting a systematic bias toward middle-category levels (Procedures with/without Connections). The tools often gave plausible-sounding explanations likely to be persuasive to novice teachers. Error analysis of AI tools' misclassification of the broad level of cognitive demand (high vs. low) revealed that tools consistently overweighted surface textual features over underlying cognitive processes. Further, AI tools showed weaknesses in reasoning about factors that make tasks higher vs. lower cognitive demand. Errors stemmed not from ignoring relevant dimensions, but from incorrectly reasoning about multiple task aspects. These findings carry implications for AI integration into teacher planning workflows and highlight the need for improved prompt engineering and tool development for educational applications.
- Abstract(参考訳): 教師は、特に認知の厳格さを維持しながら、個々の学生のニーズを満たすために数学のカリキュラムを適用する際に、時間とともにますます需要に直面している。
本研究では、AIツールが数学的タスクの認知的要求を正確に分類できるかどうかを評価する。
6つの汎用ツール(ChatGPT、Claude、DeepSeek、Gemini、Grok、Perplexity)と5つの教育特化ツール(Brisk、Coteach AI、Khanmigo、Magic School、School.AI)を、研究ベースのフレームワークを使用して4段階の認知要求で数学タスクを分類する能力についてテストしました。
目標は、パフォーマンス教師が直接のプロンプトで達成するパフォーマンスを近似することであった。
平均して、AIツールは認知的需要を63%のケースで正確に分類した。
教育用具は汎用具ほど正確ではなく,83%を超えるものもなかった。
全てのツールは、認知的要求の極端にあるタスク(記憶と行動数学)に苦労し、中流階級(コネクションなしのプロセス)に対する体系的な偏見を示しました。
これらのツールは、初心者の教師にとって説得力のある、もっともらしい説明を与えることが多い。
AIツールによる認知的要求の幅広いレベル(高い対低)の誤分類の誤り分析は、ツールが基盤となる認知プロセスよりも表面的なテキスト的特徴を常に過度に過大評価していることを明らかにした。
さらに、AIツールは、認知的需要よりもタスクを高くする要因について推論する際の弱点を示した。
エラーは、関連する次元を無視することではなく、複数のタスクの側面を誤って推論することに由来する。
これらの発見は、教師計画ワークフローにAIを統合することの意味を持ち、教育アプリケーションのための迅速なエンジニアリングとツール開発の必要性を強調している。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - What Work is AI Actually Doing? Uncovering the Drivers of Generative AI Adoption [1.4977849232424492]
本研究は,本質的なタスク特性が,AIシステムに業務を委譲するユーザの判断を促すかを検討する。
本研究は,実世界の生成AI利用を,本質的なタスク特性の包括的多次元フレームワークに結びつける最初の体系的証拠を提供する。
論文 参考訳(メタデータ) (2025-10-26T19:13:37Z) - AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - Comparative Analysis of STEM and non-STEM Teachers' Needs for Integrating AI into Educational Environments [0.6138671548064355]
本研究は,AIと分析機能を取り入れることで,教育プラットフォームをどのように改善できるかを考察する。
我々は8人のK-12教師にインタビューを行い、ブロックベースのプログラミング(BBP)プラットフォームをクラスで使用しながら、その実践とニーズについて質問した。
論文 参考訳(メタデータ) (2025-09-18T16:20:18Z) - Beyond Statistical Learning: Exact Learning Is Essential for General Intelligence [59.07578850674114]
音の誘惑的推論は、一般知能の必然的に望ましい側面である。
もっとも先進的なフロンティアシステムでさえ、定期的かつ一貫して容易に解決可能な推論タスクに干渉していることは、よく文書化されている。
彼らの不健全な振る舞いは、彼らの発展を支えている統計的学習のアプローチの結果である、と我々は主張する。
論文 参考訳(メタデータ) (2025-06-30T14:37:50Z) - Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文 参考訳(メタデータ) (2025-03-30T23:13:00Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - "From Unseen Needs to Classroom Solutions": Exploring AI Literacy Challenges & Opportunities with Project-based Learning Toolkit in K-12 Education [0.3994567502796064]
K-12の生徒には、コンピュータ科学を超えて、AIリテラシーのスキルを身につける必要性がますます高まっている。
本稿では,PBL(Project-Based Learning)AIツールキットをさまざまな分野に統合し,教育者がAI概念をより効果的に教えることを目的とした。
論文 参考訳(メタデータ) (2024-12-23T03:31:02Z) - Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - A Benchmark for Math Misconceptions: Bridging Gaps in Middle School Algebra with AI-Supported Instruction [0.0]
本研究では,中学代数学が人工知能ベースの教育プラットフォームで使用されるための評価ベンチマークを紹介する。
データセットは、代数、一般的な誤り、220の診断例に関する55の誤解を含む。
5人の教育者のうち4人は、学生の誤解の診断や教師の訓練にAIでデータセットを使用することに関心を示した。
論文 参考訳(メタデータ) (2024-12-04T23:10:29Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。