論文の概要: Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses
- arxiv url: http://arxiv.org/abs/2306.10073v1
- Date: Thu, 15 Jun 2023 22:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:19:10.478275
- Title: Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses
- Title(参考訳): あなたの進歩に興奮した!
大規模言語モデル(GPT-4)による高等教育プログラミングコースのパスアセスメントの長期化
- Authors: Jaromir Savelka, Arav Agarwal, Marshall An, Chris Bogart, Majd Sakr
- Abstract要約: GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies recent developments in large language models' (LLM)
abilities to pass assessments in introductory and intermediate Python
programming courses at the postsecondary level. The emergence of ChatGPT
resulted in heated debates of its potential uses (e.g., exercise generation,
code explanation) as well as misuses in programming classes (e.g., cheating).
Recent studies show that while the technology performs surprisingly well on
diverse sets of assessment instruments employed in typical programming classes
the performance is usually not sufficient to pass the courses. The release of
GPT-4 largely emphasized notable improvements in the capabilities related to
handling assessments originally designed for human test-takers. This study is
the necessary analysis in the context of this ongoing transition towards mature
generative AI systems. Specifically, we report the performance of GPT-4,
comparing it to the previous generations of GPT models, on three Python courses
with assessments ranging from simple multiple-choice questions (no code
involved) to complex programming projects with code bases distributed into
multiple files (599 exercises overall). Additionally, we analyze the
assessments that were not handled well by GPT-4 to understand the current
limitations of the model, as well as its capabilities to leverage feedback
provided by an auto-grader. We found that the GPT models evolved from
completely failing the typical programming class' assessments (the original
GPT-3) to confidently passing the courses with no human involvement (GPT-4).
While we identified certain limitations in GPT-4's handling of MCQs and coding
exercises, the rate of improvement across the recent generations of GPT models
strongly suggests their potential to handle almost any type of assessment
widely used in higher education programming courses. These findings could be
leveraged by educators and institutions to adapt the design of programming
assessments as well as to fuel the necessary discussions into how programming
classes should be updated to reflect the recent technological developments.
This study provides evidence that programming instructors need to prepare for a
world in which there is an easy-to-use widely accessible technology that can be
utilized by learners to collect passing scores, with no effort whatsoever, on
what today counts as viable programming knowledge and skills assessments.
- Abstract(参考訳): 本稿では,大言語モデル(llm)における初期および中間のpythonプログラミングコースにおける評価をポストセカンダリーレベルで受理する能力の最近の発展について述べる。
ChatGPTの出現は、潜在的な使用法(例えば、エクササイズ生成、コード説明)や、プログラミングクラス(例えば、不正)の誤用に関する熱い議論を引き起こした。
近年の研究では、典型的なプログラミングクラスで使用される様々な評価機器に対して驚くほど優れた性能を発揮するが、コースを通すには性能が不十分であることが示されている。
GPT-4のリリースは、もともと人間のテストテイカー向けに設計されたアセスメントの扱いに関する重要な改善を強調した。
この研究は、成熟した生成AIシステムへの移行が進行中である状況において必要な分析である。
具体的には、GPT-4の性能を以前の世代のGPTモデルと比較し、3つのPythonコースで報告し、単純な多重選択質問(コードが関与しない)から、コードベースを複数のファイルに分散した複雑なプログラミングプロジェクト(全体として599のエクササイズ)まで、評価を行った。
さらに,gpt-4で適切に処理されていない評価結果を分析し,モデルの現在の限界と,自動学習者が提供するフィードバックを活用する能力について検討した。
その結果、GPTモデルは、一般的なプログラミングクラスの評価(元のGPT-3)を完全に失敗することから、人間の関与なしにコースを確実にパスすること(GPT-4)へと進化した。
GPT-4のMCQ処理やコーディング演習に一定の制限が認められたが、近年のGPTモデルにおける改善率は、高等教育プログラムコースで広く使われているほぼあらゆるタイプの評価を扱う可能性を強く示唆している。
これらの知見は、プログラムアセスメントの設計に適応するために教育者や機関が活用し、最近の技術発展を反映してプログラミングクラスをどう更新すべきかに関する必要な議論を促進するために活用できる。
本研究は,学習者がパススコアを収集するために利用できる,使い易い広くアクセス可能な技術が存在する世界に向けて,プログラミングインストラクターが準備する必要があることを示すものである。
関連論文リスト
- Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer
Multiple-choice Questions for Programming Classes in Higher Education [2.6626950367610402]
マルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。
私たちは、ChatGPT(Nov '22)のリリース前、リリース時、そして今日(つまり8月23日)のモデルの能力の違いに注目します。
論文 参考訳(メタデータ) (2023-11-16T02:46:15Z) - Evaluating ChatGPT and GPT-4 for Visual Programming [20.64766977405438]
GPT-3.5 に基づく ChatGPT と GPT-4 の 2 つのモデルを評価する。
その結果,これらのモデルでは,視覚的プログラミングに不可欠な空間的,論理的,プログラム的スキルの組み合わせが困難であることが示唆された。
論文 参考訳(メタデータ) (2023-07-30T22:13:20Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文 参考訳(メタデータ) (2023-06-29T17:57:40Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher
Education Programming Courses? [6.2122699483618]
我々は,Pythonプログラミングコースにおける後続レベルでの評価をパスするために,GPT(Generative Pre-trained Transformer)の有効性を評価した。
GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。
これらの容易なモデルを簡単に適用することで、学習者が利用可能な総合的なスコアの非自明な部分を得ることができることは明らかである。
論文 参考訳(メタデータ) (2023-03-16T13:58:45Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。