論文の概要: Evaluating undergraduate mathematics examinations in the era of generative AI: a curriculum-level case study
- arxiv url: http://arxiv.org/abs/2509.13359v2
- Date: Thu, 18 Sep 2025 09:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 13:12:58.941598
- Title: Evaluating undergraduate mathematics examinations in the era of generative AI: a curriculum-level case study
- Title(参考訳): 生成AI時代の学部数学試験の評価--カリキュラムレベルのケーススタディ
- Authors: Benjamin J. Walker, Nikoleta Kalaydzhieva, Beatriz Navarro Lameda, Ruth A. Reynolds,
- Abstract要約: 我々は、ルッセルグループ大学の8つの学部数学試験に、GenAIを作成した。
GenAIの到達度は1級のレベルですが、現在のパフォーマンスはモジュールによって異なります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative artificial intelligence (GenAI) tools such as OpenAI's ChatGPT are transforming the educational landscape, prompting reconsideration of traditional assessment practices. In parallel, universities are exploring alternatives to in-person, closed-book examinations, raising concerns about academic integrity and pedagogical alignment in uninvigilated settings. This study investigates whether traditional closed-book mathematics examinations retain their pedagogical relevance when hypothetically administered in uninvigilated, open-book settings with GenAI access. Adopting an empirical approach, we generate, transcribe, and blind-mark GenAI submissions to eight undergraduate mathematics examinations at a Russel Group university, spanning the entirety of the first-year curriculum. By combining independent GenAI responses to individual questions, we enable a meaningful evaluation of GenAI performance, both at the level of modules and across the first-year curriculum. We find that GenAI attainment is at the level of a first-class degree, though current performance can vary between modules. Further, we find that GenAI performance is remarkably consistent when viewed across the entire curriculum, significantly more so than that of students in invigilated examinations. Our findings evidence the need for redesigning assessments in mathematics for unsupervised settings, and highlight the potential reduction in pedagogical value of current standards in the era of generative artificial intelligence.
- Abstract(参考訳): OpenAIのChatGPTのようなジェネレーティブ人工知能(GenAI)ツールは、教育環境を変革し、従来のアセスメントプラクティスの再考を促している。
同時に、大学は個人による閉書試験の代替策を模索しており、学際的整合性や教育的整合性への懸念が高まっている。
本研究は, 従来の閉書数学試験が, GenAIアクセスによる未開書環境において, 仮説的に管理されている場合, 教育的妥当性を保っているかどうかを考察する。
経験的アプローチを採用することで、初年度のカリキュラム全体にわたって、Russel Group大学の8つの学部数学試験に、GenAIを提出し、書き起こし、そして目印を付ける。
個別の質問に対する独立したGenAI応答を組み合わせることで、モジュールレベルと1年間のカリキュラムの双方において、GenAIパフォーマンスの有意義な評価を可能にする。
GenAIの到達度は1級のレベルですが、現在のパフォーマンスはモジュールによって異なります。
さらに,カリキュラム全体を通して見てみると,GenAIのパフォーマンスが著しく整合していることが判明した。
本研究は, 教師なし環境下での数学的評価の再検討の必要性を実証し, 生成人工知能時代における現在の標準の教育的価値の低下を浮き彫りにしている。
関連論文リスト
- GenExam: A Multidisciplinary Text-to-Image Exam [91.06661449186537]
GenExamは、複数の学際的なテキスト・ツー・イメージテストのための最初のベンチマークである。
試験スタイルのプロンプトを4段階の分類で編成した10の被験者に1,000のサンプルを配置している。
GPT-Image-1やGemini-2.5-Flash-Imageのような最先端モデルでさえ15%未満の厳密なスコアを達成している。
論文 参考訳(メタデータ) (2025-09-17T17:59:14Z) - The next question after Turing's question: Introducing the Grow-AI test [51.56484100374058]
本研究は,GROW-AIと呼ばれる人工知能評価の枠組みを拡張することを目的としている。
GROW-AIは、チューリングテストの自然な後継者である"Can Machine grow up?
この作品の独創性は、人間の世界から人工知能への「成長」過程の概念的な変換にある。
論文 参考訳(メタデータ) (2025-08-22T10:19:42Z) - Integrating Universal Generative AI Platforms in Educational Labs to Foster Critical Thinking and Digital Literacy [0.3749861135832073]
本稿では,ジェネレーティブ・人工知能(GenAI)プラットフォームを実験室に組み込むための新しい教育枠組みを提案する。
大規模言語モデル(LLM)への不クリティカルな依存の限界とリスクを認識して、提案された教育モデルでは、GenAIを研究対象と認知ツールとして再編成する。
論文 参考訳(メタデータ) (2025-06-11T17:45:51Z) - Encouraging Students' Responsible Use of GenAI in Software Engineering Education: A Causal Model and Two Institutional Applications [1.1511012020557325]
ChatGPTやGitHub CopilotといったジェネレーティブAI(GenAI)ツールは、教育において広く普及している。
コースワークから学ぶよりも、学生がそれを完成させるために使うことを懸念する声が上がっている。
本稿では、ソフトウェア工学教育におけるGenAI利用に責任を持つ教育者を支援するために、因果モデルを提案し、実証的に適用する。
論文 参考訳(メタデータ) (2025-05-31T19:27:40Z) - From Recall to Reasoning: Automated Question Generation for Deeper Math Learning through Large Language Models [44.99833362998488]
先進数学のためのコンテンツ生成を最適化する第1ステップについて検討した。
我々は、GenAIがコース内容に関連する高品質な実践問題を生み出す能力について検討した。
論文 参考訳(メタデータ) (2025-05-17T08:30:10Z) - Evaluating the AI-Lab Intervention: Impact on Student Perception and Use of Generative AI in Early Undergraduate Computer Science Courses [0.0]
Generative AI(GenAI)はコンピュータサイエンス教育に急速に参入しつつある。
形式コースにおける道具使用の指針となる構造的足場の研究のギャップを伴う過信共存に関する懸念。
本研究は,「AI-Lab」の介入が大学生に与える影響について考察する。
論文 参考訳(メタデータ) (2025-04-30T18:12:42Z) - Position: Evaluating Generative AI Systems Is a Social Science Measurement Challenge [78.35388859345056]
我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。
我々は,GenAIシステムの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:09:51Z) - From Automation to Cognition: Redefining the Roles of Educators and Generative AI in Computing Education [2.0628700367476203]
Generative Artificial Intelligence(GenAI)は、コンピュータ教育(CE)における教育と学習に革命をもたらす機会を提供する
しかし、教育者は、学生がGenAIを過度に信頼し、これらのツールを使って学習プロセスに携わることなくソリューションを生成するのではないかという懸念を表明している。
本稿では、CSに着目した教育環境におけるGenAIの使用経験と、それに従って実施した変化について述べる。
論文 参考訳(メタデータ) (2024-12-16T03:36:25Z) - Dimensions of Generative AI Evaluation Design [51.541816010127256]
我々は、GenAI評価設計に関わる重要な選択を捉えるための一般的な次元のセットを提案する。
これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
論文 参考訳(メタデータ) (2024-11-19T18:25:30Z) - Early Adoption of Generative Artificial Intelligence in Computing Education: Emergent Student Use Cases and Perspectives in 2023 [38.83649319653387]
コンピュータ学生のGenAI利用と認識に関する先行研究は限られている。
私たちは、小さなエンジニアリングに焦点を当てたR1大学で、すべてのコンピュータサイエンス専攻を調査しました。
我々は,GenAIと教育に関する新たな議論に対する知見の影響について論じる。
論文 参考訳(メタデータ) (2024-11-17T20:17:47Z) - Model-based Maintenance and Evolution with GenAI: A Look into the Future [47.93555901495955]
我々は、モデルベースエンジニアリング(MBM&E)の限界に対処する手段として、生成人工知能(GenAI)を用いることができると論じる。
我々は、エンジニアの学習曲線の削減、レコメンデーションによる効率の最大化、ドメイン問題を理解するための推論ツールとしてのGenAIの使用を提案する。
論文 参考訳(メタデータ) (2024-07-09T23:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。