Fugu-MT 論文翻訳(概要): Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming

論文の概要: Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming

arxiv url: http://arxiv.org/abs/2411.09261v1
Date: Thu, 14 Nov 2024 07:58:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.627052
Title: Automating Autograding: Large Language Models as Test Suite Generators for Introductory Programming
Title（参考訳）: 自動化 - 入門プログラミングのためのテストスイートジェネレータとしての大規模言語モデル
Authors: Umar Alkafaween, Ibrahim Albluwi, Paul Denny,
Abstract要約: 本研究では,大規模言語モデルを用いてプログラミング問題に対するテストスイートの自動生成の有効性を評価する。本研究では,LLM生成テストスイートとインストラクター生成テストスイートのパフォーマンスを比較した。
参考スコア（独自算出の注目度）: 1.9121661610146587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically graded programming assignments provide instant feedback to students and significantly reduce manual grading time for instructors. However, creating comprehensive suites of test cases for programming problems within automatic graders can be time-consuming and complex. The effort needed to define test suites may deter some instructors from creating additional problems or lead to inadequate test coverage, potentially resulting in misleading feedback on student solutions. Such limitations may reduce student access to the well-documented benefits of timely feedback when learning programming. In this work, we evaluate the effectiveness of using Large Language Models (LLMs), as part of a larger workflow, to automatically generate test suites for CS1-level programming problems. Each problem's statement and reference solution are provided to GPT-4 to produce a test suite that can be used by an autograder. We evaluate our proposed approach using a sample of 26 problems, and more than 25,000 attempted solutions to those problems, submitted by students in an introductory programming course. We compare the performance of the LLM-generated test suites against the instructor-created test suites for each problem. Our findings reveal that LLM-generated test suites can correctly identify most valid solutions, and for most problems are at least as comprehensive as the instructor test suites. Additionally, the LLM-generated test suites exposed ambiguities in some problem statements, underscoring their potential to improve both autograding and instructional design.
Abstract（参考訳）: 自動グレードプログラミングの課題は、学生に即時フィードバックを与え、インストラクターの手動グルーピング時間を著しく短縮する。しかしながら、自動グレーダ内のプログラミング問題に対する包括的なテストケーススイートを作成するのは、時間がかかり複雑になる可能性がある。テストスイートを定義するのに必要な労力は、一部のインストラクターが追加の問題を発生させるのを妨げたり、テストカバレッジが不十分になる可能性がある。このような制限は、プログラミングを学ぶときのタイムリーなフィードバックの、十分に文書化された利益に対する学生のアクセスを減少させる可能性がある。本研究では,大規模言語モデル(LLM)を大規模ワークフローの一部として使用して,CS1レベルのプログラミング問題に対するテストスイートを自動的に生成するの有効性を評価する。各問題のステートメントと参照ソリューションはGPT-4に提供され、オートグレーダで使用可能なテストスイートを生成する。提案手法を26の課題のサンプルを用いて評価し,その問題に対する25,000以上の試みを行った。本研究では,LLM生成テストスイートとインストラクター生成テストスイートのパフォーマンスを比較した。以上の結果から,LLM生成テストスイートは最も有効なソリューションを正しく同定でき,ほとんどの問題に対してインストラクターテストスイートほど包括的ではないことが明らかとなった。さらに、LCMが生成したテストスイートは、いくつかの問題文で曖昧さを露呈し、オートグレーディングとインストラクショナルデザインの両方を改善する可能性を強調した。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems [61.26070215983157]
EFA(Executable Functional Abstraction)という用語を導入し,数学問題のプログラムを示す。本研究では,与えられた種問題と解に対するEFAを自動的に推論するタスクを運用するEFAGenを開発する。 EFAGenが推定するEFAはシード問題に忠実であり、学習可能な問題のバリエーションを生じさせ、EFAGenは多様な競合レベルの数学問題の源泉をまたいでEFAを推測できることを示した。
論文参考訳（メタデータ） (2025-04-14T00:06:48Z)
ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。 ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文参考訳（メタデータ） (2025-02-10T15:24:30Z)
Design choices made by LLM-based test generators prevent them from finding bugs [0.850206009406913]
本稿は,最近のLCMベースのテスト生成ツールであるCodium CoverAgentやCoverUpが,効果的にバグを見つけたり,意図せずに欠陥コードを検証することができるかどうかを,批判的に検証する。実際の人手によるバグ検出コードを入力として使用すると、これらのツールを評価し、LCM生成テストがバグの検出に失敗する可能性を示し、さらに警告として、生成されたテストスイートのバグを検証することで、その設計が状況を悪化させる可能性があることを示します。
論文参考訳（メタデータ） (2024-12-18T18:33:26Z)
A Block-Based Testing Framework for Scratch [9.390562437823078]
自動テストの作成を可能にするブロックのカテゴリをScratchに導入する。これらのブロックによって、学生や教師もテストを作成し、Scratch環境内で直接フィードバックを受け取ることができる。
論文参考訳（メタデータ） (2024-10-11T14:11:26Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Multi-language Unit Test Generation using LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を示します。以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに性能も向上することが示された。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。 LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文参考訳（メタデータ） (2024-07-12T10:11:40Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文参考訳（メタデータ） (2024-05-21T13:19:10Z)
Large Language Models to Generate System-Level Test Programs Targeting Non-functional Properties [3.3305233186101226]
本稿では,テストプログラムを生成するためのLarge Language Models (LLM)を提案する。我々は、DUTの非機能特性を最適化するために、事前訓練されたLLMがテストプログラム生成でどのように機能するかを、一目で見てみる。
論文参考訳（メタデータ） (2024-03-15T08:01:02Z)
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文参考訳（メタデータ） (2023-08-01T10:31:36Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。