論文の概要: A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course
- arxiv url: http://arxiv.org/abs/2403.16977v1
- Date: Mon, 25 Mar 2024 17:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:15:04.213086
- Title: A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course
- Title(参考訳): 大学レベルコーディングコースにおける人間, GPT-3.5, GPT-4の性能比較
- Authors: Will Yeadon, Alex Peach, Craig P. Testrow,
- Abstract要約: そこで本研究では,学習者のみに対するChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。
学生の平均は91.9%(SE:0.4)で、AI応募の最高水準、即興エンジニアリングのGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = 2.482×10-10$)を示した。
盲目マーカーは、Definitely の 4-point Likert スケールで、提出書の著者を推測する作業であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the performance of ChatGPT variants, GPT-3.5 and GPT-4, both with and without prompt engineering, against solely student work and a mixed category containing both student and GPT-4 contributions in university-level physics coding assignments using the Python language. Comparing 50 student submissions to 50 AI-generated submissions across different categories, and marked blindly by three independent markers, we amassed $n = 300$ data points. Students averaged 91.9% (SE:0.4), surpassing the highest performing AI submission category, GPT-4 with prompt engineering, which scored 81.1% (SE:0.8) - a statistically significant difference (p = $2.482 \times 10^{-10}$). Prompt engineering significantly improved scores for both GPT-4 (p = $1.661 \times 10^{-4}$) and GPT-3.5 (p = $4.967 \times 10^{-9}$). Additionally, the blinded markers were tasked with guessing the authorship of the submissions on a four-point Likert scale from `Definitely AI' to `Definitely Human'. They accurately identified the authorship, with 92.1% of the work categorized as 'Definitely Human' being human-authored. Simplifying this to a binary `AI' or `Human' categorization resulted in an average accuracy rate of 85.3%. These findings suggest that while AI-generated work closely approaches the quality of university students' work, it often remains detectable by human evaluators.
- Abstract(参考訳): 本研究は,大学院生と大学院生の両方がPython言語を用いた物理コーディング課題に貢献する混成カテゴリーに対して,直接的・即興的な工学的手法によるChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。
50人の学生が、さまざまなカテゴリーにまたがって50のAI生成申請を提出し、3つの独立したマーカーによって盲目的にマークされた結果、私たちは、n = 300$のデータポイントを収集しました。
学生の平均は91.9%(SE:0.4)で、AIの応募部門では最高水準のGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = $2.482 \times 10^{-10}$)を記録した。
プロンプトエンジニアリングは GPT-4 (p = $1.661 \times 10^{-4}$) と GPT-3.5 (p = 4.967 \times 10^{-9}$) のスコアを大幅に改善した。
さらに、盲目のマーカーは、応募の著者を『定点AI』から『定点人間』まで4点の『等級』スケールで推測する任務を負った。
彼らは著者を正確に特定し、作品の92.1%を「定員」に分類した。
これを2進の 'AI' や 'Human' の分類に単純化すると、平均精度は85.3%になった。
これらの結果から,AIによる作業は大学生の作業の質に近づきつつも,人間の評価者によって検出されることが多いことが示唆された。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。
テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。
解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-06T04:41:13Z) - Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-06T19:51:26Z) - If in a Crowdsourced Data Annotation Pipeline, a GPT-4 [12.898580978312848]
本稿では,GPT-4と倫理的かつ優れたMTurkパイプラインを比較した。
ベストプラクティスにもかかわらず、MTurkパイプラインの最高精度は81.5%であり、GPT-4は83.6%に達した。
論文 参考訳(メタデータ) (2024-02-26T18:08:52Z) - GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation [93.55550787058012]
本稿では,テキスト・ツー・3次元生成モデルのための自動的,汎用的,人為的アライメント評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,評価プロンプトを生成する。
次に,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
論文 参考訳(メタデータ) (2024-01-08T18:52:09Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - GPT-4 as an Effective Zero-Shot Evaluator for Scientific Figure Captions [22.181665641802468]
本稿では,大言語モデル(LLM)をコスト効率のよい参照不要な図形キャプション評価手法として用いた。
SCICAP-EVALは3,600の科学的図形キャプションに対する人間の判断を含む人間の評価データセットである。
次に,GPT-4 や GPT-3 などの LLM に各キャプション (1-6) のスコアを誘導した。
論文 参考訳(メタデータ) (2023-10-23T23:24:57Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。