論文の概要: Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher
Education Programming Courses?
- arxiv url: http://arxiv.org/abs/2303.09325v1
- Date: Thu, 16 Mar 2023 13:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:22:32.408397
- Title: Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher
Education Programming Courses?
- Title(参考訳): 高等教育プログラミングコースにおけるジェネレーティブ事前学習トランスフォーマー(gpt)の評価を通すことができるか?
- Authors: Jaromir Savelka, Arav Agarwal, Christopher Bogart, Yifan Song, Majd
Sakr
- Abstract要約: 我々は,Pythonプログラミングコースにおける後続レベルでの評価をパスするために,GPT(Generative Pre-trained Transformer)の有効性を評価した。
GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。
これらの容易なモデルを簡単に適用することで、学習者が利用可能な総合的なスコアの非自明な部分を得ることができることは明らかである。
- 参考スコア(独自算出の注目度): 6.2122699483618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluated the capability of generative pre-trained transformers (GPT), to
pass assessments in introductory and intermediate Python programming courses at
the postsecondary level. Discussions of potential uses (e.g., exercise
generation, code explanation) and misuses (e.g., cheating) of this emerging
technology in programming education have intensified, but to date there has not
been a rigorous analysis of the models' capabilities in the realistic context
of a full-fledged programming course with diverse set of assessment
instruments. We evaluated GPT on three Python courses that employ assessments
ranging from simple multiple-choice questions (no code involved) to complex
programming projects with code bases distributed into multiple files (599
exercises overall). Further, we studied if and how successfully GPT models
leverage feedback provided by an auto-grader. We found that the current models
are not capable of passing the full spectrum of assessments typically involved
in a Python programming course (<70% on even entry-level modules). Yet, it is
clear that a straightforward application of these easily accessible models
could enable a learner to obtain a non-trivial portion of the overall available
score (>55%) in introductory and intermediate courses alike. While the models
exhibit remarkable capabilities, including correcting solutions based on
auto-grader's feedback, some limitations exist (e.g., poor handling of
exercises requiring complex chains of reasoning steps). These findings can be
leveraged by instructors wishing to adapt their assessments so that GPT becomes
a valuable assistant for a learner as opposed to an end-to-end solution.
- Abstract(参考訳): 初期および中間のpythonプログラミングコースにおける評価をポストセカンダリーレベルでパスする,ジェネレーティブ事前学習トランスフォーマー(gpt)の能力を評価した。
プログラミング教育におけるこの新興技術の潜在的な使用(例えば、エクササイズ生成、コード説明)と誤用(例えば、不正)に関する議論は激化しているが、これまでは、様々な評価機器を備えた本格的なプログラミングコースの現実的な文脈におけるモデルの能力に関する厳密な分析は行われていない。
我々は,単純な複数項目の質問(コードが関与しない)から,コードベースを複数のファイルに分散した複雑なプログラミングプロジェクト(全体として599エクササイズ)まで,3つのPythonコースでGPTを評価した。
さらに,GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。
現在のモデルは、pythonプログラミングコース(エントリレベルのモジュールでも70%)に典型的に関与する評価のスペクトルを完全に通すことができないことが分かりました。
しかし、これらの容易なモデルを簡単に適用することで、学習者が導入科目や中間科目で利用可能な総合スコアの非自明な部分(>55%)を得ることができることは明らかである。
モデルには、オートグレーダーのフィードバックに基づくソリューションの修正など、優れた能力があるが、いくつかの制限がある(例えば、複雑な推論ステップの連鎖を必要とする運動の扱いが貧弱である)。
これらの知見は,GPTがエンド・ツー・エンドのソリューションとは対照的に,学習者にとって貴重なアシスタントとなるように,評価に適応したいと考えるインストラクターによって活用することができる。
関連論文リスト
- Generating High-Precision Feedback for Programming Syntax Errors using
Large Language Models [23.25258654890813]
コード(LLMC)で訓練された大規模言語モデルは、学生のフィードバックを自動的に生成することで、プログラミング教育の強化に大いに貢献する。
Codexを利用した高精度フィードバック生成技術であるPyFiXVを紹介する。
構文エラーのあるPythonプログラムの2つの実世界のデータセットを用いて広範囲な評価を行い,PyFiXVの有効性を示す。
論文 参考訳(メタデータ) (2023-01-24T13:00:25Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - problexity -- an open-source Python library for binary classification
problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。
現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。
本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文 参考訳(メタデータ) (2022-07-14T07:32:15Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - An Analysis of Programming Course Evaluations Before and After the
Introduction of an Autograder [4.047600110017139]
本稿では,最近自己評価を導入した基礎的コンピュータ科学コースの標準化された大学評価アンケートに対する回答について検討する。
我々は,教師と生徒の交流の改善,コースの質の向上,学習の成功の向上,時間の短縮,難易度の向上など,データに大きな変化をもたらした可能性について仮説を立てた。
オートグレーダ技術は、プログラミングコースにおける生徒の満足度を向上させるための教育方法として検証することができる。
論文 参考訳(メタデータ) (2021-10-28T14:09:44Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。