論文の概要: Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming
- arxiv url: http://arxiv.org/abs/2411.09261v1
- Date: Thu, 14 Nov 2024 07:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:33.095454
- Title: Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming
- Title(参考訳): 自動化 - 入門プログラミングのためのテストスイートジェネレータとしての大規模言語モデル
- Authors: Umar Alkafaween, Ibrahim Albluwi, Paul Denny,
- Abstract要約: 本研究では,大規模言語モデルを用いてプログラミング問題に対するテストスイートの自動生成の有効性を評価する。
本研究では,LLM生成テストスイートとインストラクター生成テストスイートのパフォーマンスを比較した。
- 参考スコア(独自算出の注目度): 1.9121661610146587
- License:
- Abstract: Automatically graded programming assignments provide instant feedback to students and significantly reduce manual grading time for instructors. However, creating comprehensive suites of test cases for programming problems within automatic graders can be time-consuming and complex. The effort needed to define test suites may deter some instructors from creating additional problems or lead to inadequate test coverage, potentially resulting in misleading feedback on student solutions. Such limitations may reduce student access to the well-documented benefits of timely feedback when learning programming. In this work, we evaluate the effectiveness of using Large Language Models (LLMs), as part of a larger workflow, to automatically generate test suites for CS1-level programming problems. Each problem's statement and reference solution are provided to GPT-4 to produce a test suite that can be used by an autograder. We evaluate our proposed approach using a sample of 26 problems, and more than 25,000 attempted solutions to those problems, submitted by students in an introductory programming course. We compare the performance of the LLM-generated test suites against the instructor-created test suites for each problem. Our findings reveal that LLM-generated test suites can correctly identify most valid solutions, and for most problems are at least as comprehensive as the instructor test suites. Additionally, the LLM-generated test suites exposed ambiguities in some problem statements, underscoring their potential to improve both autograding and instructional design.
- Abstract(参考訳): 自動グレードプログラミングの課題は、学生に即時フィードバックを与え、インストラクターの手動グルーピング時間を著しく短縮する。
しかしながら、自動グレーダ内のプログラミング問題に対する包括的なテストケーススイートを作成するのは、時間がかかり複雑になる可能性がある。
テストスイートを定義するのに必要な労力は、一部のインストラクターが追加の問題を発生させるのを妨げたり、テストカバレッジが不十分になる可能性がある。
このような制限は、プログラミングを学ぶときのタイムリーなフィードバックの、十分に文書化された利益に対する学生のアクセスを減少させる可能性がある。
本研究では,大規模言語モデル(LLM)を大規模ワークフローの一部として使用して,CS1レベルのプログラミング問題に対するテストスイートを自動的に生成するの有効性を評価する。
各問題のステートメントと参照ソリューションはGPT-4に提供され、オートグレーダで使用可能なテストスイートを生成する。
提案手法を26の課題のサンプルを用いて評価し,その問題に対する25,000以上の試みを行った。
本研究では,LLM生成テストスイートとインストラクター生成テストスイートのパフォーマンスを比較した。
以上の結果から,LLM生成テストスイートは最も有効なソリューションを正しく同定でき,ほとんどの問題に対してインストラクターテストスイートほど包括的ではないことが明らかとなった。
さらに、LCMが生成したテストスイートは、いくつかの問題文で曖昧さを露呈し、オートグレーディングとインストラクショナルデザインの両方を改善する可能性を強調した。
関連論文リスト
- ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)へのフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGenがUT生成ベースラインを7.59%向上させることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - Design choices made by LLM-based test generators prevent them from finding bugs [0.850206009406913]
本稿は,最近のLCMベースのテスト生成ツールであるCodium CoverAgentやCoverUpが,効果的にバグを見つけたり,意図せずに欠陥コードを検証することができるかどうかを,批判的に検証する。
実際の人手によるバグ検出コードを入力として使用すると、これらのツールを評価し、LCM生成テストがバグの検出に失敗する可能性を示し、さらに警告として、生成されたテストスイートのバグを検証することで、その設計が状況を悪化させる可能性があることを示します。
論文 参考訳(メタデータ) (2024-12-18T18:33:26Z) - A Block-Based Testing Framework for Scratch [9.390562437823078]
自動テストの作成を可能にするブロックのカテゴリをScratchに導入する。
これらのブロックによって、学生や教師もテストを作成し、Scratch環境内で直接フィードバックを受け取ることができる。
論文 参考訳(メタデータ) (2024-10-11T14:11:26Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。
UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文 参考訳(メタデータ) (2024-08-21T15:35:34Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文 参考訳(メタデータ) (2024-05-21T13:19:10Z) - Large Language Models to Generate System-Level Test Programs Targeting Non-functional Properties [3.3305233186101226]
本稿では,テストプログラムを生成するためのLarge Language Models (LLM)を提案する。
我々は、DUTの非機能特性を最適化するために、事前訓練されたLLMがテストプログラム生成でどのように機能するかを、一目で見てみる。
論文 参考訳(メタデータ) (2024-03-15T08:01:02Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。