論文の概要: Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher
Education Programming Courses?
- arxiv url: http://arxiv.org/abs/2303.09325v1
- Date: Thu, 16 Mar 2023 13:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:22:32.408397
- Title: Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher
Education Programming Courses?
- Title(参考訳): 高等教育プログラミングコースにおけるジェネレーティブ事前学習トランスフォーマー(gpt)の評価を通すことができるか?
- Authors: Jaromir Savelka, Arav Agarwal, Christopher Bogart, Yifan Song, Majd
Sakr
- Abstract要約: 我々は,Pythonプログラミングコースにおける後続レベルでの評価をパスするために,GPT(Generative Pre-trained Transformer)の有効性を評価した。
GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。
これらの容易なモデルを簡単に適用することで、学習者が利用可能な総合的なスコアの非自明な部分を得ることができることは明らかである。
- 参考スコア(独自算出の注目度): 6.2122699483618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluated the capability of generative pre-trained transformers (GPT), to
pass assessments in introductory and intermediate Python programming courses at
the postsecondary level. Discussions of potential uses (e.g., exercise
generation, code explanation) and misuses (e.g., cheating) of this emerging
technology in programming education have intensified, but to date there has not
been a rigorous analysis of the models' capabilities in the realistic context
of a full-fledged programming course with diverse set of assessment
instruments. We evaluated GPT on three Python courses that employ assessments
ranging from simple multiple-choice questions (no code involved) to complex
programming projects with code bases distributed into multiple files (599
exercises overall). Further, we studied if and how successfully GPT models
leverage feedback provided by an auto-grader. We found that the current models
are not capable of passing the full spectrum of assessments typically involved
in a Python programming course (<70% on even entry-level modules). Yet, it is
clear that a straightforward application of these easily accessible models
could enable a learner to obtain a non-trivial portion of the overall available
score (>55%) in introductory and intermediate courses alike. While the models
exhibit remarkable capabilities, including correcting solutions based on
auto-grader's feedback, some limitations exist (e.g., poor handling of
exercises requiring complex chains of reasoning steps). These findings can be
leveraged by instructors wishing to adapt their assessments so that GPT becomes
a valuable assistant for a learner as opposed to an end-to-end solution.
- Abstract(参考訳): 初期および中間のpythonプログラミングコースにおける評価をポストセカンダリーレベルでパスする,ジェネレーティブ事前学習トランスフォーマー(gpt)の能力を評価した。
プログラミング教育におけるこの新興技術の潜在的な使用(例えば、エクササイズ生成、コード説明)と誤用(例えば、不正)に関する議論は激化しているが、これまでは、様々な評価機器を備えた本格的なプログラミングコースの現実的な文脈におけるモデルの能力に関する厳密な分析は行われていない。
我々は,単純な複数項目の質問(コードが関与しない)から,コードベースを複数のファイルに分散した複雑なプログラミングプロジェクト(全体として599エクササイズ)まで,3つのPythonコースでGPTを評価した。
さらに,GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。
現在のモデルは、pythonプログラミングコース(エントリレベルのモジュールでも70%)に典型的に関与する評価のスペクトルを完全に通すことができないことが分かりました。
しかし、これらの容易なモデルを簡単に適用することで、学習者が導入科目や中間科目で利用可能な総合スコアの非自明な部分(>55%)を得ることができることは明らかである。
モデルには、オートグレーダーのフィードバックに基づくソリューションの修正など、優れた能力があるが、いくつかの制限がある(例えば、複雑な推論ステップの連鎖を必要とする運動の扱いが貧弱である)。
これらの知見は,GPTがエンド・ツー・エンドのソリューションとは対照的に,学習者にとって貴重なアシスタントとなるように,評価に適応したいと考えるインストラクターによって活用することができる。
関連論文リスト
- Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer
Multiple-choice Questions for Programming Classes in Higher Education [2.6626950367610402]
マルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。
私たちは、ChatGPT(Nov '22)のリリース前、リリース時、そして今日(つまり8月23日)のモデルの能力の違いに注目します。
論文 参考訳(メタデータ) (2023-11-16T02:46:15Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions
about Code [0.0]
我々は,3つの生成事前学習型トランスフォーマー(GPT)モデルの有効性を,MCQ (Multiple-choice Question) の評価に答えるために分析した。
これらの知見は、プログラミングコースにおける教育実践や評価に適応するために、教育者によって活用することができる。
論文 参考訳(メタデータ) (2023-03-09T16:52:12Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - problexity -- an open-source Python library for binary classification
problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。
現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。
本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文 参考訳(メタデータ) (2022-07-14T07:32:15Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。