論文の概要: Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests
- arxiv url: http://arxiv.org/abs/2306.05715v1
- Date: Fri, 9 Jun 2023 07:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:29:13.496202
- Title: Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests
- Title(参考訳): 初心者プログラマのヘルプ要求に対する大規模言語モデルの応答の検討
- Authors: Arto Hellas, Juho Leinonen, Sami Sarsa, Charles Koutcheme, Lilja
Kujanp\"a\"a, Juha Sorva
- Abstract要約: 大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。
オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
- 参考スコア(独自算出の注目度): 1.8260333137469122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background and Context: Over the past year, large language models (LLMs) have
taken the world by storm. In computing education, like in other walks of life,
many opportunities and threats have emerged as a consequence.
Objectives: In this article, we explore such opportunities and threats in a
specific area: responding to student programmers' help requests. More
specifically, we assess how good LLMs are at identifying issues in problematic
code that students request help on.
Method: We collected a sample of help requests and code from an online
programming course. We then prompted two different LLMs (OpenAI Codex and
GPT-3.5) to identify and explain the issues in the students' code and assessed
the LLM-generated answers both quantitatively and qualitatively.
Findings: GPT-3.5 outperforms Codex in most respects. Both LLMs frequently
find at least one actual issue in each student program (GPT-3.5 in 90% of the
cases). Neither LLM excels at finding all the issues (GPT-3.5 finding them 57%
of the time). False positives are common (40% chance for GPT-3.5). The advice
that the LLMs provide on the issues is often sensible. The LLMs perform better
on issues involving program logic rather than on output formatting. Model
solutions are frequently provided even when the LLM is prompted not to. LLM
responses to prompts in a non-English language are only slightly worse than
responses to English prompts.
Implications: Our results continue to highlight the utility of LLMs in
programming education. At the same time, the results highlight the
unreliability of LLMs: LLMs make some of the same mistakes that students do,
perhaps especially when formatting output as required by automated assessment
systems. Our study informs teachers interested in using LLMs as well as future
efforts to customize LLMs for the needs of programming education.
- Abstract(参考訳): 背景とコンテキスト: この1年で、大規模な言語モデル(llm)が世界に波及しました。
コンピューティング教育では、他の人生の歩みと同様に、多くの機会と脅威が生まれている。
目的: この記事では,学生プログラマのヘルプ要求に対応するという,特定の領域におけるそのような機会と脅威について検討します。
より具体的には、学生が助けを求める問題コードの問題を特定するのにllmがいかに優れているかを評価する。
メソッド: オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
次に,2つの異なるLCM(OpenAI CodexとGPT-3.5)を用いて,学生のコード中の問題を特定し,説明し,LLM生成した回答を定量的かつ質的に評価した。
GPT-3.5は多くの点でCodexを上回っている。
両方のLSMは、生徒プログラムの90%で少なくとも1つの実際の問題(GPT-3.5)をしばしば見出す。
LLMはすべての問題を見つけるのに長けていない(GPT-3.5では57%)。
偽陽性は一般的である(GPT-3.5の40%の確率)。
LLMが問題に対して提供するアドバイスは、しばしば賢明です。
LLMは出力フォーマッティングよりもプログラムロジックに関わる問題の方が優れている。
LLMが起動しない場合でも、モデルソリューションが頻繁に提供される。
非英語のプロンプトに対するLLM応答は、英語のプロンプトに対する応答よりもわずかに悪い。
本研究の結果は,LLMのプログラミング教育における有用性を強調し続けている。
LLMは、特に自動評価システムで必要となる出力をフォーマットする場合に、学生と同じ誤りを犯す。
本研究は,LLMの活用に関心のある教員や,プログラミング教育のニーズに応じてLLMをカスタマイズする今後の取り組みについて報告する。
関連論文リスト
- SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - CS1-LLM: Integrating LLMs into CS1 Instruction [0.6282171844772422]
本経験報告では,大規模言語モデルを完全に取り入れた大規模大学におけるCS1コースについて述べる。
LLMを組み込むため、コースは意図的に変更され、シンタックスやコードの記述がスクラッチから強調されるようになった。
学生は3つの異なる領域に3つの大きなオープンエンドプロジェクトを与えられ、彼らの創造性を誇示した。
論文 参考訳(メタデータ) (2024-04-17T14:44:28Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。