論文の概要: StudentEval: A Benchmark of Student-Written Prompts for Large Language
Models of Code
- arxiv url: http://arxiv.org/abs/2306.04556v1
- Date: Wed, 7 Jun 2023 16:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:21:01.147973
- Title: StudentEval: A Benchmark of Student-Written Prompts for Large Language
Models of Code
- Title(参考訳): StudentEval: 大規模言語モデルのための学生記述プロンプトのベンチマーク
- Authors: Hannah McLean Babe, Sydney Nguyen, Yangtian Zi, Arjun Guha, Molly Q
Feldman, Carolyn Jane Anderson
- Abstract要約: StudentEvalには48の問題に対して1,749のプロンプトが含まれており、Pythonプログラミングの1学期しか完了していない80人の学生によって書かれた。
本研究は,学生のプロンプトを解析し,学生のプロンプト技術に有意な変化を見出した。
- 参考スコア(独自算出の注目度): 2.087827281461409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code LLMs are being rapidly deployed and there is evidence that they can make
professional programmers more productive. Current benchmarks for code
generation measure whether models generate correct programs given an expert
prompt. In this paper, we present a new benchmark containing multiple prompts
per problem, written by a specific population of non-expert prompters:
beginning programmers. StudentEval contains 1,749 prompts for 48 problems,
written by 80 students who have only completed one semester of Python
programming. Our students wrote these prompts while working interactively with
a Code LLM, and we observed very mixed success rates. We use StudentEval to
evaluate 5 Code LLMs and find that StudentEval is a better discriminator of
model performance than existing benchmarks. We analyze the prompts and find
significant variation in students' prompting techniques. We also find that
nondeterministic LLM sampling could mislead students into thinking that their
prompts are more (or less) effective than they actually are, which has
implications for how to teach with Code LLMs.
- Abstract(参考訳): コードLLMは急速にデプロイされ、プロのプログラマをより生産的にできる証拠があります。
現在のコード生成ベンチマークは、専門家のプロンプトによってモデルが正しいプログラムを生成するかどうかを測定する。
本稿では,非専門家プロンジャの特定集団による問題毎の複数のプロンプトを含む新しいベンチマークを提案する。
StudentEvalには48の問題に対して1,749のプロンプトがあり、Pythonプログラミングの1学期しか完了していない80人の学生によって書かれた。
学生たちは、Code LLMと対話的に作業しながら、これらのプロンプトを書きました。
StudentEvalを使って5つのコードLLMを評価し、既存のベンチマークよりもモデルパフォーマンスの差別化に優れています。
プロンプトの分析を行い,学生のプロンプト技術に有意な変化を見出す。
また、非決定論的LCMサンプリングは、学生に、そのプロンプトが実際よりも効果的である(あるいは少ない)と考えることを誤解させる可能性がある。
関連論文リスト
- GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Prompt Learning Framework for Source Code Summarization [24.33455799484519]
本稿では,PromptCSと呼ばれるコード要約のための新しいプロンプト学習フレームワークを提案する。
PromptCSは、コード要約においてLLMのポテンシャルを解放するために連続的なプロンプトを生成するプロンプトエージェントを訓練する。
複数のプログラミング言語を含むCodeSearchNetデータセット上でPromptCSを評価する。
論文 参考訳(メタデータ) (2023-12-26T14:37:55Z) - ProCoT: Stimulating Critical Thinking and Writing of Students through Engagement with Large Language Models (LLMs) [0.7545833157486899]
我々はProCoT(Probing Chain-of-Thought)と呼ばれる新しい筆記法を導入する。
学生がLarge Language Model(LLM)を使って浮気することを防ぐかもしれない
65名の学生を対象に,ProCoTを用いて2つのコースで研究を行った。
論文 参考訳(メタデータ) (2023-12-15T14:01:46Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。
オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文 参考訳(メタデータ) (2023-06-09T07:19:43Z) - PromptBench: Towards Evaluating the Robustness of Large Language Models
on Adversarial Prompts [78.45093469355905]
PromptBenchは、大規模言語モデルのレジリエンスを敵のプロンプトに測定するために設計された堅牢性ベンチマークである。
本研究は、複数のレベル(文字、単語、文、意味)にまたがるプロンプトを標的とした、多数の敵攻撃を用いる。
本研究は,8つのタスクと13のデータセットに対して,4788の逆のプロンプトを生成する。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。