論文の概要: CodeEval: A pedagogical approach for targeted evaluation of code-trained Large Language Models
- arxiv url: http://arxiv.org/abs/2601.03432v1
- Date: Tue, 06 Jan 2026 21:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.078547
- Title: CodeEval: A pedagogical approach for targeted evaluation of code-trained Large Language Models
- Title(参考訳): CodeEval: 訓練済み大規模言語モデルのターゲット評価のための教育的アプローチ
- Authors: Danny Brahman, Mohammad Mahoor,
- Abstract要約: 大規模言語モデル(LLM)は、その常識的推論、言語理解、論理的推論能力に基づいて主に評価される。
既存のベンチマークデータセットは、特定の強度と弱点を特定できない。
我々は,Python プログラミングの 24 つの異なる側面にわたる LLM を厳格に評価するために設計された多次元ベンチマークデータセットである CodeEval を紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are predominantly assessed based on their common sense reasoning, language comprehension, and logical reasoning abilities. While models trained in specialized domains like mathematics or coding have demonstrated remarkable advancements in logical reasoning, there remains a significant gap in evaluating their code generation capabilities. Existing benchmark datasets fall short in pinpointing specific strengths and weaknesses, impeding targeted enhancements in models' reasoning abilities to synthesize code. To bridge this gap, our paper introduces an innovative, pedagogical benchmarking method that mirrors the evaluation processes encountered in academic programming courses. We introduce CodeEval, a multi-dimensional benchmark dataset designed to rigorously evaluate LLMs across 24 distinct aspects of Python programming. The dataset covers three proficiency levels - beginner, intermediate, and advanced - and includes both class-based and function-based problem types with detailed problem specifications and comprehensive test suites. To facilitate widespread adoption, we also developed RunCodeEval, an open-source execution framework that provides researchers with a ready-to-use evaluation pipeline for CodeEval. RunCodeEval handles test execution, context setup, and metrics generation, enabling researchers to quickly obtain detailed insights into model strengths and weaknesses across complexity levels, problem types, and programming categories. This combination enables targeted evaluation and guides improvements in LLMs' programming proficiencies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その常識的推論、言語理解、論理的推論能力に基づいて主に評価される。
数学やコーディングのような専門分野で訓練されたモデルは、論理的推論において顕著な進歩を見せている一方で、コード生成能力を評価する上で大きなギャップがある。
既存のベンチマークデータセットは、特定の長所と短所の特定に不足しており、コードを合成するモデルの推論能力の強化を阻害している。
このギャップを埋めるために,本研究では,学術プログラミングコースで直面する評価過程を反映した,革新的な教育ベンチマーク手法を提案する。
我々は,Python プログラミングの 24 つの異なる側面にわたる LLM を厳格に評価するために設計された多次元ベンチマークデータセットである CodeEval を紹介する。
データセットは3つの習熟レベル – 初心者、中間、高度な – をカバーし、詳細な問題仕様と包括的なテストスイートを備えたクラスベースおよび関数ベースの問題タイプを含む。
これはオープンソースの実行フレームワークで、研究者にCodeEvalの使える評価パイプラインを提供する。
RunCodeEvalは、テスト実行、コンテキスト設定、メトリクス生成を処理し、複雑性レベル、問題タイプ、プログラミングカテゴリにわたるモデルの長所と短所に関する詳細な洞察を素早く得る。
この組み合わせにより、LLMのプログラミング能力の向上を目標評価とガイドすることができる。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。
ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。
我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文 参考訳(メタデータ) (2025-02-28T09:12:42Z) - A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。
自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (2024-08-29T12:56:06Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。