論文の概要: Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming
- arxiv url: http://arxiv.org/abs/2411.09261v1
- Date: Thu, 14 Nov 2024 07:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:33.095454
- Title: Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming
- Title(参考訳): 自動化 - 入門プログラミングのためのテストスイートジェネレータとしての大規模言語モデル
- Authors: Umar Alkafaween, Ibrahim Albluwi, Paul Denny,
- Abstract要約: 本研究では,大規模言語モデルを用いてプログラミング問題に対するテストスイートの自動生成の有効性を評価する。
本研究では,LLM生成テストスイートとインストラクター生成テストスイートのパフォーマンスを比較した。
- 参考スコア(独自算出の注目度): 1.9121661610146587
- License:
- Abstract: Automatically graded programming assignments provide instant feedback to students and significantly reduce manual grading time for instructors. However, creating comprehensive suites of test cases for programming problems within automatic graders can be time-consuming and complex. The effort needed to define test suites may deter some instructors from creating additional problems or lead to inadequate test coverage, potentially resulting in misleading feedback on student solutions. Such limitations may reduce student access to the well-documented benefits of timely feedback when learning programming. In this work, we evaluate the effectiveness of using Large Language Models (LLMs), as part of a larger workflow, to automatically generate test suites for CS1-level programming problems. Each problem's statement and reference solution are provided to GPT-4 to produce a test suite that can be used by an autograder. We evaluate our proposed approach using a sample of 26 problems, and more than 25,000 attempted solutions to those problems, submitted by students in an introductory programming course. We compare the performance of the LLM-generated test suites against the instructor-created test suites for each problem. Our findings reveal that LLM-generated test suites can correctly identify most valid solutions, and for most problems are at least as comprehensive as the instructor test suites. Additionally, the LLM-generated test suites exposed ambiguities in some problem statements, underscoring their potential to improve both autograding and instructional design.
- Abstract(参考訳): 自動グレードプログラミングの課題は、学生に即時フィードバックを与え、インストラクターの手動グルーピング時間を著しく短縮する。
しかしながら、自動グレーダ内のプログラミング問題に対する包括的なテストケーススイートを作成するのは、時間がかかり複雑になる可能性がある。
テストスイートを定義するのに必要な労力は、一部のインストラクターが追加の問題を発生させるのを妨げたり、テストカバレッジが不十分になる可能性がある。
このような制限は、プログラミングを学ぶときのタイムリーなフィードバックの、十分に文書化された利益に対する学生のアクセスを減少させる可能性がある。
本研究では,大規模言語モデル(LLM)を大規模ワークフローの一部として使用して,CS1レベルのプログラミング問題に対するテストスイートを自動的に生成するの有効性を評価する。
各問題のステートメントと参照ソリューションはGPT-4に提供され、オートグレーダで使用可能なテストスイートを生成する。
提案手法を26の課題のサンプルを用いて評価し,その問題に対する25,000以上の試みを行った。
本研究では,LLM生成テストスイートとインストラクター生成テストスイートのパフォーマンスを比較した。
以上の結果から,LLM生成テストスイートは最も有効なソリューションを正しく同定でき,ほとんどの問題に対してインストラクターテストスイートほど包括的ではないことが明らかとなった。
さらに、LCMが生成したテストスイートは、いくつかの問題文で曖昧さを露呈し、オートグレーディングとインストラクショナルデザインの両方を改善する可能性を強調した。
関連論文リスト
- A Block-Based Testing Framework for Scratch [9.390562437823078]
自動テストの作成を可能にするブロックのカテゴリをScratchに導入する。
これらのブロックによって、学生や教師もテストを作成し、Scratch環境内で直接フィードバックを受け取ることができる。
論文 参考訳(メタデータ) (2024-10-11T14:11:26Z) - Multi-language Unit Test Generation using LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を示します。
以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに性能も向上することが示された。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。
UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文 参考訳(メタデータ) (2024-08-21T15:35:34Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文 参考訳(メタデータ) (2024-05-21T13:19:10Z) - Large Language Models to Generate System-Level Test Programs Targeting Non-functional Properties [3.3305233186101226]
本稿では,テストプログラムを生成するためのLarge Language Models (LLM)を提案する。
我々は、DUTの非機能特性を最適化するために、事前訓練されたLLMがテストプログラム生成でどのように機能するかを、一目で見てみる。
論文 参考訳(メタデータ) (2024-03-15T08:01:02Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。