論文の概要: Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors
- arxiv url: http://arxiv.org/abs/2306.17156v1
- Date: Thu, 29 Jun 2023 17:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:09:18.951271
- Title: Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors
- Title(参考訳): プログラミング教育のための生成AI: ChatGPT, GPT-4, Human Tutorsのベンチマーク
- Authors: Tung Phung, Victor-Alexandru P\u{a}durean, Jos\'e Cambronero, Sumit
Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
- Abstract要約: 我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
- 参考スコア(独自算出の注目度): 21.227955181065948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI and large language models hold great promise in enhancing
computing education by powering next-generation educational technologies for
introductory programming. Recent works have studied these models for different
scenarios relevant to programming education; however, these works are limited
for several reasons, as they typically consider already outdated models or only
specific scenario(s). Consequently, there is a lack of a systematic study that
benchmarks state-of-the-art models for a comprehensive set of programming
education scenarios. In our work, we systematically evaluate two models,
ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human
tutors for a variety of scenarios. We evaluate using five introductory Python
programming problems and real-world buggy programs from an online platform, and
assess performance using expert-based annotations. Our results show that GPT-4
drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human
tutors' performance for several scenarios. These results also highlight
settings where GPT-4 still struggles, providing exciting future directions on
developing techniques to improve the performance of these models.
- Abstract(参考訳): 生成型AIと大規模言語モデルは、入門プログラミングに次世代の教育技術を活用することによって、コンピューティング教育の強化に大いに貢献する。
最近の研究は、プログラミング教育に関連する様々なシナリオについてこれらのモデルを研究しているが、それらは、既に時代遅れのモデルや特定のシナリオのみを考えるため、いくつかの理由で制限されている。
その結果、包括的なプログラミング教育シナリオのための最先端モデルをベンチマークする体系的な研究が欠如している。
本研究では,chatgpt (gpt-3.5) と gpt-4 の2つのモデルを体系的に評価し,その性能を人間の指導者と比較した。
オンラインプラットフォームから5つのPythonプログラミング問題と実世界のバグジープログラムを評価し,専門家によるアノテーションによるパフォーマンス評価を行った。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
これらの結果は、GPT-4がいまだに苦戦している設定も強調し、これらのモデルの性能を改善する技術開発におけるエキサイティングな方向性を提供する。
関連論文リスト
- Comparing large language models and human programmers for generating programming code [0.0]
GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。
この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。
論文 参考訳(メタデータ) (2024-03-01T14:43:06Z) - Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation [25.317788211120362]
本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。
最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。
我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
論文 参考訳(メタデータ) (2023-10-05T17:02:59Z) - Evaluating ChatGPT and GPT-4 for Visual Programming [20.64766977405438]
GPT-3.5 に基づく ChatGPT と GPT-4 の 2 つのモデルを評価する。
その結果,これらのモデルでは,視覚的プログラミングに不可欠な空間的,論理的,プログラム的スキルの組み合わせが困難であることが示唆された。
論文 参考訳(メタデータ) (2023-07-30T22:13:20Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。