Fugu-MT 論文翻訳(概要): Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?

論文の概要: Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?

arxiv url: http://arxiv.org/abs/2303.09325v1
Date: Thu, 16 Mar 2023 13:58:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 15:22:32.408397
Title: Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?
Title（参考訳）: 高等教育プログラミングコースにおけるジェネレーティブ事前学習トランスフォーマー(gpt)の評価を通すことができるか?
Authors: Jaromir Savelka, Arav Agarwal, Christopher Bogart, Yifan Song, Majd Sakr
Abstract要約: 我々は,Pythonプログラミングコースにおける後続レベルでの評価をパスするために,GPT(Generative Pre-trained Transformer)の有効性を評価した。 GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。これらの容易なモデルを簡単に適用することで、学習者が利用可能な総合的なスコアの非自明な部分を得ることができることは明らかである。
参考スコア（独自算出の注目度）: 6.2122699483618
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluated the capability of generative pre-trained transformers (GPT), to pass assessments in introductory and intermediate Python programming courses at the postsecondary level. Discussions of potential uses (e.g., exercise generation, code explanation) and misuses (e.g., cheating) of this emerging technology in programming education have intensified, but to date there has not been a rigorous analysis of the models' capabilities in the realistic context of a full-fledged programming course with diverse set of assessment instruments. We evaluated GPT on three Python courses that employ assessments ranging from simple multiple-choice questions (no code involved) to complex programming projects with code bases distributed into multiple files (599 exercises overall). Further, we studied if and how successfully GPT models leverage feedback provided by an auto-grader. We found that the current models are not capable of passing the full spectrum of assessments typically involved in a Python programming course (<70% on even entry-level modules). Yet, it is clear that a straightforward application of these easily accessible models could enable a learner to obtain a non-trivial portion of the overall available score (>55%) in introductory and intermediate courses alike. While the models exhibit remarkable capabilities, including correcting solutions based on auto-grader's feedback, some limitations exist (e.g., poor handling of exercises requiring complex chains of reasoning steps). These findings can be leveraged by instructors wishing to adapt their assessments so that GPT becomes a valuable assistant for a learner as opposed to an end-to-end solution.
Abstract（参考訳）: 初期および中間のpythonプログラミングコースにおける評価をポストセカンダリーレベルでパスする,ジェネレーティブ事前学習トランスフォーマー(gpt)の能力を評価した。プログラミング教育におけるこの新興技術の潜在的な使用(例えば、エクササイズ生成、コード説明)と誤用(例えば、不正)に関する議論は激化しているが、これまでは、様々な評価機器を備えた本格的なプログラミングコースの現実的な文脈におけるモデルの能力に関する厳密な分析は行われていない。我々は,単純な複数項目の質問(コードが関与しない)から,コードベースを複数のファイルに分散した複雑なプログラミングプロジェクト(全体として599エクササイズ)まで,3つのPythonコースでGPTを評価した。さらに,GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。現在のモデルは、pythonプログラミングコース(エントリレベルのモジュールでも70%)に典型的に関与する評価のスペクトルを完全に通すことができないことが分かりました。しかし、これらの容易なモデルを簡単に適用することで、学習者が導入科目や中間科目で利用可能な総合スコアの非自明な部分(>55%)を得ることができることは明らかである。モデルには、オートグレーダーのフィードバックに基づくソリューションの修正など、優れた能力があるが、いくつかの制限がある(例えば、複雑な推論ステップの連鎖を必要とする運動の扱いが貧弱である)。これらの知見は,GPTがエンド・ツー・エンドのソリューションとは対照的に,学習者にとって貴重なアシスタントとなるように,評価に適応したいと考えるインストラクターによって活用することができる。

関連論文リスト

The Lazy Student's Dream: ChatGPT Passing an Engineering Course on Its Own [1.2891210250935148]
本稿では,Large Language Models (LLMs) の制御系コースを成功させる能力について包括的に検討する。現実的な学生の利用パターンをシミュレートする「最小限の努力」プロトコルの下で,ChatGPTを用いてLCMの性能を評価する。我々の分析は、制御システム工学における数学的定式化、コーディングの課題、理論的概念を扱う際のAIの強みと限界に関する定量的洞察を提供する。
論文参考訳（メタデータ） (2025-02-23T18:47:14Z)
Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。 GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文参考訳（メタデータ） (2024-08-07T12:11:49Z)
From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer Multiple-choice Questions for Programming Classes in Higher Education [2.6626950367610402]
マルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。私たちは、ChatGPT(Nov '22)のリリース前、リリース時、そして今日(つまり8月23日)のモデルの能力の違いに注目します。
論文参考訳（メタデータ） (2023-11-16T02:46:15Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Thrilled by Your Progress! Large Language Models (GPT-4) No Longer Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文参考訳（メタデータ） (2023-06-15T22:12:34Z)
Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions about Code [0.0]
我々は,3つの生成事前学習型トランスフォーマー(GPT)モデルの有効性を,MCQ (Multiple-choice Question) の評価に答えるために分析した。これらの知見は、プログラミングコースにおける教育実践や評価に適応するために、教育者によって活用することができる。
論文参考訳（メタデータ） (2023-03-09T16:52:12Z)
Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文参考訳（メタデータ） (2022-11-30T16:26:38Z)
problexity -- an open-source Python library for binary classification problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文参考訳（メタデータ） (2022-07-14T07:32:15Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。