論文の概要: Assessing GPT Performance in a Proof-Based University-Level Course Under Blind Grading
- arxiv url: http://arxiv.org/abs/2505.13664v1
- Date: Mon, 19 May 2025 19:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.493459
- Title: Assessing GPT Performance in a Proof-Based University-Level Course Under Blind Grading
- Title(参考訳): ブラインドグレーディングによる大学レベルコースにおけるGPT性能の評価
- Authors: Ming Ding, Rasmus Kyng, Federico Solda, Weixuan Yuan,
- Abstract要約: 本研究は,GPT-4oとo1-previewの性能を現実的な教育条件下で評価する。
その結果, GPT-4oは通過しきい値に達するのに失敗し, o1-previewは著しく改善した。
これらの知見は、教育におけるロバストアセスメント戦略とAI対応のグレーティングポリシーの必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 8.206694431501832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance, their role in higher education, particularly in free-response problem-solving, requires careful examination. This study assesses the performance of GPT-4o and o1-preview under realistic educational conditions in an undergraduate algorithms course. Anonymous GPT-generated solutions to take-home exams were graded by teaching assistants unaware of their origin. Our analysis examines both coarse-grained performance (scores) and fine-grained reasoning quality (error patterns). Results show that GPT-4o consistently struggles, failing to reach the passing threshold, while o1-preview performs significantly better, surpassing the passing score and even exceeding the student median in certain exercises. However, both models exhibit issues with unjustified claims and misleading arguments. These findings highlight the need for robust assessment strategies and AI-aware grading policies in education.
- Abstract(参考訳): 大規模言語モデル(LLM)が進歩するにつれて、特に自由応答問題解決における高等教育におけるそれらの役割は慎重に検討される必要がある。
本研究は,GPT-4oとo1-previewの現実的な教育条件下での性能を評価する。
自家試験の匿名GPT生成ソリューションは、その起源を知らない助手に教えることによって評価された。
本分析では,粗粒度性能(スコア)と細粒度推論品質(エラーパターン)の両方について検討した。
その結果, GPT-4o はパスしきい値に届かなかったが, o1-preview はパススコアを上回り,特定のエクササイズでは学生の中央値を超えていた。
しかし、どちらのモデルも不当な主張や誤解を招く議論に問題がある。
これらの知見は、教育におけるロバストアセスメント戦略とAI対応のグレーティングポリシーの必要性を浮き彫りにしている。
関連論文リスト
- Evaluating GPT- and Reasoning-based Large Language Models on Physics Olympiad Problems: Surpassing Human Performance and Implications for Educational Assessment [0.0]
大規模言語モデル(LLM)は現在広く利用されており、すべての教育レベルで学習者が利用できる。
本研究では,汎用LLM (GPT-4o) と推論最適化モデル (o1-preview) の問題解決性能を,ドイツの物理オリンピック参加者と比較した。
論文 参考訳(メタデータ) (2025-05-14T14:46:32Z) - Assessing instructor-AI cooperation for grading essay-type questions in an introductory sociology course [0.0]
生成前学習型トランスフォーマー(GPT)モデルの性能評価を行った。
グレードリングでは,GPTがヒトのグレードラースコアと強い相関を示し,特にテンプレート回答が提供された。
この研究は、教育におけるAIに関する文献の増大に寄与し、エッセイ型質問の質と効率を高める可能性を示す。
論文 参考訳(メタデータ) (2025-01-11T07:18:12Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education [0.13654846342364302]
本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
論文 参考訳(メタデータ) (2024-01-02T03:54:50Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。