論文の概要: Leveraging Generative AI for Enhancing Automated Assessment in Programming Education Contests
- arxiv url: http://arxiv.org/abs/2506.05990v1
- Date: Fri, 06 Jun 2025 11:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.44678
- Title: Leveraging Generative AI for Enhancing Automated Assessment in Programming Education Contests
- Title(参考訳): プログラミング教育コンテストにおける自動評価向上のための生成AIの活用
- Authors: Stefan Dascalescu, Adrian Marius Dumitran, Mihai Alexandru Vasiluta,
- Abstract要約: 本稿では、生成型AI(大規模言語モデル)を活用して、競争力のあるプログラムアセスメントのための高品質なテストケース作成を自動化する革新的なNLP駆動方式を提案する。
以上の結果から,AIが生成したテストケースは,OJI 5年生のプログラミング問題のうち67%の未検出エラーを同定し,評価を大幅に向上することが示された。
プロンプト、翻訳データセット、方法論をオープンに共有することで、教育者やコンテスト主催者が容易に統合して評価品質を高め、作業負荷を低減し、学習者のパフォーマンスに対する洞察を深めることのできる、実践的なNLPベースのツールを提供します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Competitive programming contests play a crucial role in cultivating computational thinking and algorithmic skills among learners. However, generating comprehensive test cases to effectively assess programming solutions remains resource-intensive and challenging for educators. This paper introduces an innovative NLP-driven method leveraging generative AI (large language models) to automate the creation of high-quality test cases for competitive programming assessments. We extensively evaluated our approach on diverse datasets, including 25 years of Romanian Informatics Olympiad (OJI) data for 5th graders, recent competitions hosted on the Kilonova.ro platform, and the International Informatics Olympiad in Teams (IIOT). Our results demonstrate that AI-generated test cases substantially enhanced assessments, notably identifying previously undetected errors in 67% of the OJI 5th grade programming problems. These improvements underscore the complementary educational value of our technique in formative assessment contexts. By openly sharing our prompts, translated datasets, and methodologies, we offer practical NLP-based tools that educators and contest organizers can readily integrate to enhance assessment quality, reduce workload, and deepen insights into learner performance.
- Abstract(参考訳): 競争的プログラミングコンテストは、学習者の間で計算思考とアルゴリズムスキルを育む上で重要な役割を担っている。
しかし、プログラムソリューションを効果的に評価するための包括的なテストケースの生成は、教育者にとって資源集約的で困難なままである。
本稿では、生成型AI(大規模言語モデル)を活用して、競争力のあるプログラムアセスメントのための高品質なテストケース作成を自動化する革新的なNLP駆動方式を提案する。
5年生のルーマニア人インフォマティクスOlympiad(OJI)データ、最近のKilonova.roプラットフォームでのコンペティション、国際インフォマティクスOlympiad in Teams(IIOT)などです。
以上の結果から,AIが生成したテストケースは,OJI 5年生のプログラミング問題のうち67%の未検出エラーを同定し,評価を大幅に向上することが示された。
これらの改善は、形式的評価の文脈において、我々の手法の補完的な教育的価値を浮き彫りにしている。
プロンプト、翻訳データセット、方法論をオープンに共有することで、教育者やコンテスト主催者が容易に統合して評価品質を高め、作業負荷を低減し、学習者のパフォーマンスに対する洞察を深めることのできる、実践的なNLPベースのツールを提供します。
関連論文リスト
- From Struggle (06-2024) to Mastery (02-2025) LLMs Conquer Advanced Algorithm Exams and Pave the Way for Editorial Generation [0.0]
本稿では,大学レベルのアルゴリズム試験において,最先端の大規模言語モデル(LLM)の性能を総合的に評価する。
ルーマニア語の試験と、その高品質な英語翻訳の両方で複数のモデルをテストすることで、LLMの問題解決能力、一貫性、多言語のパフォーマンスを分析する。
論文 参考訳(メタデータ) (2025-06-05T12:41:20Z) - Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。
ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。
我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文 参考訳(メタデータ) (2025-02-28T09:12:42Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。