Fugu-MT 論文翻訳(概要): StudentEval: A Benchmark of Student-Written Prompts for Large Language Models of Code

論文の概要: StudentEval: A Benchmark of Student-Written Prompts for Large Language Models of Code

arxiv url: http://arxiv.org/abs/2306.04556v1
Date: Wed, 7 Jun 2023 16:03:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 13:21:01.147973
Title: StudentEval: A Benchmark of Student-Written Prompts for Large Language Models of Code
Title（参考訳）: StudentEval: 大規模言語モデルのための学生記述プロンプトのベンチマーク
Authors: Hannah McLean Babe, Sydney Nguyen, Yangtian Zi, Arjun Guha, Molly Q Feldman, Carolyn Jane Anderson
Abstract要約: StudentEvalには48の問題に対して1,749のプロンプトが含まれており、Pythonプログラミングの1学期しか完了していない80人の学生によって書かれた。本研究は,学生のプロンプトを解析し,学生のプロンプト技術に有意な変化を見出した。
参考スコア（独自算出の注目度）: 2.087827281461409
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code LLMs are being rapidly deployed and there is evidence that they can make professional programmers more productive. Current benchmarks for code generation measure whether models generate correct programs given an expert prompt. In this paper, we present a new benchmark containing multiple prompts per problem, written by a specific population of non-expert prompters: beginning programmers. StudentEval contains 1,749 prompts for 48 problems, written by 80 students who have only completed one semester of Python programming. Our students wrote these prompts while working interactively with a Code LLM, and we observed very mixed success rates. We use StudentEval to evaluate 5 Code LLMs and find that StudentEval is a better discriminator of model performance than existing benchmarks. We analyze the prompts and find significant variation in students' prompting techniques. We also find that nondeterministic LLM sampling could mislead students into thinking that their prompts are more (or less) effective than they actually are, which has implications for how to teach with Code LLMs.
Abstract（参考訳）: コードLLMは急速にデプロイされ、プロのプログラマをより生産的にできる証拠があります。現在のコード生成ベンチマークは、専門家のプロンプトによってモデルが正しいプログラムを生成するかどうかを測定する。本稿では,非専門家プロンジャの特定集団による問題毎の複数のプロンプトを含む新しいベンチマークを提案する。 StudentEvalには48の問題に対して1,749のプロンプトがあり、Pythonプログラミングの1学期しか完了していない80人の学生によって書かれた。学生たちは、Code LLMと対話的に作業しながら、これらのプロンプトを書きました。 StudentEvalを使って5つのコードLLMを評価し、既存のベンチマークよりもモデルパフォーマンスの差別化に優れています。プロンプトの分析を行い,学生のプロンプト技術に有意な変化を見出す。また、非決定論的LCMサンプリングは、学生に、そのプロンプトが実際よりも効果的である(あるいは少ない)と考えることを誤解させる可能性がある。

関連論文リスト

"I Would Have Written My Code Differently'': Beginners Struggle to Understand LLM-Generated Code [3.125508434341366]
本稿では、初心者が大規模言語モデル(LLM)の生成したコードをいかによく理解するかを測る。主な課題は、非ネイティブな英語話者の障壁、Pythonの構文に慣れていないこと、自動化バイアスである。調査の結果、タスク当たりの成功率は32.5%と低かった。
論文参考訳（メタデータ） (2025-04-26T22:12:16Z)
Substance Beats Style: Why Beginning Students Fail to Code with LLMs [3.4817709155395327]
既存の作業は、初心者がLLMにテキストからコードへのタスクの解決を促すのに苦労していることを示している。本稿では,学生のLLM誤信の原因について,競合する2つの仮説を考察する。
論文参考訳（メタデータ） (2024-10-15T20:36:30Z)
SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文参考訳（メタデータ） (2024-06-14T21:52:21Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
A Prompt Learning Framework for Source Code Summarization [24.33455799484519]
本稿では,PromptCSと呼ばれるコード要約のための新しいプロンプト学習フレームワークを提案する。 PromptCSは、コード要約においてLLMのポテンシャルを解放するために連続的なプロンプトを生成するプロンプトエージェントを訓練する。複数のプログラミング言語を含むCodeSearchNetデータセット上でPromptCSを評価する。
論文参考訳（メタデータ） (2023-12-26T14:37:55Z)
ProCoT: Stimulating Critical Thinking and Writing of Students through Engagement with Large Language Models (LLMs) [0.7545833157486899]
我々はProCoT(Probing Chain-of-Thought)と呼ばれる新しい筆記法を導入する。学生がLarge Language Model(LLM)を使って浮気することを防ぐかもしれない 65名の学生を対象に,ProCoTを用いて2つのコースで研究を行った。
論文参考訳（メタデータ） (2023-12-15T14:01:46Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
Exploring the Responses of Large Language Models to Beginner Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文参考訳（メタデータ） (2023-06-09T07:19:43Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。