論文の概要: Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions
about Code
- arxiv url: http://arxiv.org/abs/2303.08033v1
- Date: Thu, 9 Mar 2023 16:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-19 11:49:49.178229
- Title: Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions
about Code
- Title(参考訳): 大規模言語モデル(GPT)によるコードの複数質問への回答
- Authors: Jaromir Savelka, Arav Agarwal, Christopher Bogart, Majd Sakr
- Abstract要約: 我々は,3つの生成事前学習型トランスフォーマー(GPT)モデルの有効性を,MCQ (Multiple-choice Question) の評価に答えるために分析した。
これらの知見は、プログラミングコースにおける教育実践や評価に適応するために、教育者によって活用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyzed effectiveness of three generative pre-trained transformer (GPT)
models in answering multiple-choice question (MCQ) assessments, often involving
short snippets of code, from introductory and intermediate programming courses
at the postsecondary level. This emerging technology stirs countless
discussions of its potential uses (e.g., exercise generation, code explanation)
as well as misuses in programming education (e.g., cheating). However, the
capabilities of GPT models and their limitations to reason about and/or analyze
code in educational settings have been under-explored. We evaluated several
OpenAI's GPT models on formative and summative MCQ assessments from three
Python courses (530 questions). We found that MCQs containing code snippets are
not answered as successfully as those that only contain natural language. While
questions requiring to fill-in a blank in the code or completing a natural
language statement about the snippet are handled rather successfully, MCQs that
require analysis and/or reasoning about the code (e.g., what is true/false
about the snippet, or what is its output) appear to be the most challenging.
These findings can be leveraged by educators to adapt their instructional
practices and assessments in programming courses, so that GPT becomes a
valuable assistant for a learner as opposed to a source of confusion and/or
potential hindrance in the learning process.
- Abstract(参考訳): 本研究は,マルチチョイス質問(mcq)評価に対するgptモデル(generative pre-trained transformer)の有効性について検討した。
この新興技術は、潜在的な用途(例えば、エクササイズ生成、コード説明)と、プログラミング教育における誤用(例えば、不正)について無数の議論を巻き起こす。
しかし、gptモデルの能力や、教育環境におけるコードを推論・分析するための制限は未検討である。
我々は,3つのPythonコース(530質問)の形式的および要約的MCQ評価に基づいて,OpenAIのGPTモデルを評価した。
コードスニペットを含むMCQは、自然言語のみを含むものほどうまく答えられていないことがわかった。
コードに空白を埋めたり、スニペットに関する自然言語文を完成させたりする必要のある質問は、かなりうまく処理されるが、コードの解析や推論を必要とするmcq(例えば、スニペットについて真/偽、あるいはそのアウトプット)は、最も難しいように見える。
これらの知見は、教育者によって、プログラミングコースにおける指導的実践や評価を適応させることで、gptは学習者の価値あるアシスタントとなり、学習プロセスにおける混乱や潜在的な障害の源泉となる。
関連論文リスト
- Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models [54.58108387797138]
コードインテリジェンスタスクにおける即時学習の有効性について検討する。
既存の自動プロンプト設計手法は、コードインテリジェンスタスクに限られている。
本稿では、精巧な遺伝的アルゴリズムを用いてプロンプトを自動設計する遺伝的オートプロンプト(GenAP)を提案する。
論文 参考訳(メタデータ) (2024-03-20T13:37:00Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Code Generation Based Grading: Evaluating an Auto-grading Mechanism for
"Explain-in-Plain-English" Questions [0.0]
コード生成ベースグラディング(CGBG)は、人間の学年と適度に合意する。
CGBGは、コードの低レベルおよびライン・バイ・ライン記述に関して、人間のグレードラーと適度に合意する。
論文 参考訳(メタデータ) (2023-11-25T02:45:00Z) - Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures [0.6990493129893112]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文 参考訳(メタデータ) (2023-07-10T08:20:34Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher
Education Programming Courses? [6.2122699483618]
我々は,Pythonプログラミングコースにおける後続レベルでの評価をパスするために,GPT(Generative Pre-trained Transformer)の有効性を評価した。
GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。
これらの容易なモデルを簡単に適用することで、学習者が利用可能な総合的なスコアの非自明な部分を得ることができることは明らかである。
論文 参考訳(メタデータ) (2023-03-16T13:58:45Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Automatic Generation of Programming Exercises and Code Explanations with
Large Language Models [4.947560475228859]
OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。
プログラミング演習の2つの段階において,Codexの自然言語生成能力について検討する。
自動生成されるコンテンツの大部分は、新しいものでも、理にかなったものでも、多くの場合、そのまま使えるものなのです。
論文 参考訳(メタデータ) (2022-06-03T11:00:43Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。