論文の概要: Can AI Tools Transform Low-Demand Math Tasks? An Evaluation of Task Modification Capabilities
- arxiv url: http://arxiv.org/abs/2604.12743v1
- Date: Tue, 14 Apr 2026 13:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.469414
- Title: Can AI Tools Transform Low-Demand Math Tasks? An Evaluation of Task Modification Capabilities
- Title(参考訳): AIツールは低デマンド数学タスクを変換できるか? : タスク修正能力の評価
- Authors: Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey, Christian D. Schunn,
- Abstract要約: 本研究では,AIツールが低認知能力の数学タスクをアップグレードできるかどうかを検討した。
平均すると、AIツールは適度に成功しただけであり、タスクは正確に64%しかアップグレードされなかった。
特殊ツールは汎用ツールよりも適度に成功しただけだった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent research has explored AI tools' ability to classify the quality of mathematical tasks (arXiv:2603.03512), little is known about their capacity to increase the quality of existing tasks. This study investigated whether AI tools could successfully upgrade low-cognitive-demand mathematics tasks. Eleven tools were tested, including six broadly available, general-purpose AI tools (e.g., ChatGPT and Claude) and five tools specialized for mathematics teachers (e.g., Khanmigo, coteach.ai). Using the Task Analysis Guide framework (Stein & Smith, 1998), we prompted AI tools to modify two different types of low-demand mathematical tasks. The prompting strategy aimed to represent likely approaches taken by knowledgeable teachers, rather than extensive optimization to find a more effective prompt (i.e., an optimistic typical outcome). On average, AI tools were only moderately successful: tasks were accurately upgraded only 64% of the time, with different AI tool performance ranging from quite weak (33%) to broadly successful (88%). Specialized tools were only moderately more successful than general-purpose tools. Failure modes included both "undershooting" (maintaining low cognitive demand) and "overshooting" (elevating tasks to an overly ambitious target category that likely would be rejected by teachers). Interestingly, there was a small negative correlation (r = -.35) between whether a given AI tool was able to correctly classify the cognitive demand of tasks and whether the AI was able to upgrade tasks, showing that the ability to modify tasks (i.e., a generative task) represents a distinct capability from the ability to classify them (i.e., judgement using a rubric). These findings have important implications for understanding AI's potential role in curriculum adaptation and highlight the need for specialized approaches to support teachers in modifying instructional materials.
- Abstract(参考訳): 最近の研究では、AIツールが数学タスクの品質を分類する能力(arXiv:2603.03512)について検討されているが、既存のタスクの品質を高める能力についてはほとんど知られていない。
本研究では,AIツールが低認知能力の数学タスクをアップグレードできるかどうかを検討した。
広く利用可能な汎用AIツール(例:ChatGPT、Claude)と数学教師に特化した5つのツール(例:Khanmigo、coteach.ai)を含む11のツールがテストされた。
タスク分析ガイドフレームワーク(Stein & Smith, 1998)を用いて、我々はAIツールに2種類の低要求数学的タスクを修正するよう促した。
プロンプト戦略は、より効果的なプロンプト(楽観的な典型的な結果)を見つけるために広範な最適化ではなく、知識のある教師によって取られるであろうアプローチを表現することを目的としていた。
タスクは正確に64%しかアップグレードされず、AIツールのパフォーマンスはかなり弱い(33%)から広く成功した(88%)。
特殊ツールは汎用ツールよりも適度に成功しただけだった。
失敗モードには、"アンダーシューティング"(認知的要求の低さを維持する)と"オーバーシューティング"(教師によって拒否される可能性のある、過度に野心的な目標カテゴリーへのタスクの増加)の両方が含まれていた。
興味深いことに、与えられたAIツールがタスクの認知的要求を正しく分類できるかどうかと、AIがタスクをアップグレードできるかどうかの間には、小さな負の相関(r = -.35)があった。
これらの知見は、カリキュラム適応におけるAIの潜在的役割を理解する上で重要な意味を持ち、教師が教材の変更を支援するための特別なアプローチの必要性を強調している。
関連論文リスト
- Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks [0.0]
私たちは、認知的要求の4レベルにわたって数学のタスクを分類する能力に基づいて、11のAIツールをテストしました。
平均して、AIツールは認知的需要を63%のケースで正確に分類した。
すべてのツールは、認知的要求の極端にタスクに苦しんだ。
論文 参考訳(メタデータ) (2026-03-03T20:39:55Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - What Work is AI Actually Doing? Uncovering the Drivers of Generative AI Adoption [1.4977849232424492]
本研究は,本質的なタスク特性が,AIシステムに業務を委譲するユーザの判断を促すかを検討する。
本研究は,実世界の生成AI利用を,本質的なタスク特性の包括的多次元フレームワークに結びつける最初の体系的証拠を提供する。
論文 参考訳(メタデータ) (2025-10-26T19:13:37Z) - AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T14:23:33Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - The Mathematics of Artificial Intelligence [23.03787751696068]
本稿では,人工知能(AI)における数学の役割について概説する。
数学はAIシステムをよりよく理解し、拡張するためのツールを提供する、と強調する。
逆に、AIは新しい問題を提起し、様々な分野の交差点で新しい数学の開発を進める。
論文 参考訳(メタデータ) (2025-01-15T15:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。