論文の概要: From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer
Multiple-choice Questions for Programming Classes in Higher Education
- arxiv url: http://arxiv.org/abs/2311.09518v1
- Date: Thu, 16 Nov 2023 02:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:50:44.387345
- Title: From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer
Multiple-choice Questions for Programming Classes in Higher Education
- Title(参考訳): GPT-3 から GPT-4 へ: 高等教育におけるプログラミング科目における複数選択質問への LLM の進化的効果について
- Authors: Jaromir Savelka, Arav Agarwal, Christopher Bogart, Majd Sakr
- Abstract要約: マルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。
私たちは、ChatGPT(Nov '22)のリリース前、リリース時、そして今日(つまり8月23日)のモデルの能力の違いに注目します。
- 参考スコア(独自算出の注目度): 2.6626950367610402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the evolving efficacy of three generative pre-trained transformer
(GPT) models in generating answers for multiple-choice questions (MCQ) from
introductory and intermediate Python programming courses in higher education.
We focus on the differences in capabilities of the models prior to the release
of ChatGPT (Nov '22), at the time of the release, and today (i.e., Aug '23).
Recent studies have established that the abilities of the OpenAI's GPT models
to handle assessments originally designed for humans keep increasing as the
newer more capable models are released. However, the qualitative differences in
the capabilities and limitations of these models to reason about and/or analyze
programming MCQs have been under-explored. We evaluated three OpenAI's GPT
models on formative and summative MCQ assessments from three Python courses
(530 questions) focusing on the qualitative differences in the evolving
efficacy of the subsequent models. This study provides further evidence and
insight into the trajectory of the current developments where there already
exists a technology that can be utilized by students to collect passing scores,
with no effort whatsoever, on what today counts as viable programming knowledge
and skills assessments. This study could be leveraged by educators and
institutions to better understand the recent technological developments in
order to adapt the design of programming assessments as well as to fuel the
necessary discussions into how assessments in future programming classes should
be updated.
- Abstract(参考訳): 高等教育におけるPythonプログラミングコースの導入と中等教育におけるマルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。
chatgpt (11月22日) のリリースに先立って,本日(8月23日)のchatgpt (11月22日) リリースに先立って,モデルの能力の違いに注目した。
近年の研究では、OpenAIのGPTモデルの、もともと人間用に設計されたアセスメントを扱う能力は、より能力のあるモデルがリリースされるにつれて増加し続けることが確認されている。
しかしながら、これらのモデルがプログラミングmcqを推論および/または分析する能力と制限の質的な違いは未検討である。
我々は,3つのPythonコース (530質問) から, 3つの OpenAI の GPT モデルを形式的および要約的 MCQ 評価で評価し,その後のモデルの有効性の質的差異に着目した。
この研究は、学生がパススコアを収集するために利用できる技術がすでに存在する現在の発展の軌跡に関するさらなる証拠と知見を提供する。
本研究は,最近の技術開発をより深く理解するために教育者や機関が活用し,プログラミング評価の設計を適応させるとともに,将来のプログラミング授業における評価の更新方法に関する必要な議論を促進することができる。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation [25.317788211120362]
本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。
最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。
我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
論文 参考訳(メタデータ) (2023-10-05T17:02:59Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文 参考訳(メタデータ) (2023-06-29T17:57:40Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Practical and Ethical Challenges of Large Language Models in Education:
A Systematic Scoping Review [5.329514340780243]
大規模言語モデル(LLM)は、テキストコンテンツの生成と分析の面倒なプロセスを自動化する可能性がある。
これらの革新の実践性と倫理性には懸念がある。
我々は2017年以降に発行された118件の査読論文の体系的スコーピングレビューを行い、研究の現状を明らかにした。
論文 参考訳(メタデータ) (2023-03-17T18:14:46Z) - Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher
Education Programming Courses? [6.2122699483618]
我々は,Pythonプログラミングコースにおける後続レベルでの評価をパスするために,GPT(Generative Pre-trained Transformer)の有効性を評価した。
GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。
これらの容易なモデルを簡単に適用することで、学習者が利用可能な総合的なスコアの非自明な部分を得ることができることは明らかである。
論文 参考訳(メタデータ) (2023-03-16T13:58:45Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。