Fugu-MT 論文翻訳(概要): CodeEval: A pedagogical approach for targeted evaluation of code-trained Large Language Models

論文の概要: CodeEval: A pedagogical approach for targeted evaluation of code-trained Large Language Models

arxiv url: http://arxiv.org/abs/2601.03432v1
Date: Tue, 06 Jan 2026 21:42:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 02:15:23.078547
Title: CodeEval: A pedagogical approach for targeted evaluation of code-trained Large Language Models
Title（参考訳）: CodeEval: 訓練済み大規模言語モデルのターゲット評価のための教育的アプローチ
Authors: Danny Brahman, Mohammad Mahoor,
Abstract要約: 大規模言語モデル(LLM)は、その常識的推論、言語理解、論理的推論能力に基づいて主に評価される。既存のベンチマークデータセットは、特定の強度と弱点を特定できない。我々は,Python プログラミングの 24 つの異なる側面にわたる LLM を厳格に評価するために設計された多次元ベンチマークデータセットである CodeEval を紹介した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are predominantly assessed based on their common sense reasoning, language comprehension, and logical reasoning abilities. While models trained in specialized domains like mathematics or coding have demonstrated remarkable advancements in logical reasoning, there remains a significant gap in evaluating their code generation capabilities. Existing benchmark datasets fall short in pinpointing specific strengths and weaknesses, impeding targeted enhancements in models' reasoning abilities to synthesize code. To bridge this gap, our paper introduces an innovative, pedagogical benchmarking method that mirrors the evaluation processes encountered in academic programming courses. We introduce CodeEval, a multi-dimensional benchmark dataset designed to rigorously evaluate LLMs across 24 distinct aspects of Python programming. The dataset covers three proficiency levels - beginner, intermediate, and advanced - and includes both class-based and function-based problem types with detailed problem specifications and comprehensive test suites. To facilitate widespread adoption, we also developed RunCodeEval, an open-source execution framework that provides researchers with a ready-to-use evaluation pipeline for CodeEval. RunCodeEval handles test execution, context setup, and metrics generation, enabling researchers to quickly obtain detailed insights into model strengths and weaknesses across complexity levels, problem types, and programming categories. This combination enables targeted evaluation and guides improvements in LLMs' programming proficiencies.
Abstract（参考訳）: 大規模言語モデル(LLM)は、その常識的推論、言語理解、論理的推論能力に基づいて主に評価される。数学やコーディングのような専門分野で訓練されたモデルは、論理的推論において顕著な進歩を見せている一方で、コード生成能力を評価する上で大きなギャップがある。既存のベンチマークデータセットは、特定の長所と短所の特定に不足しており、コードを合成するモデルの推論能力の強化を阻害している。このギャップを埋めるために,本研究では,学術プログラミングコースで直面する評価過程を反映した,革新的な教育ベンチマーク手法を提案する。我々は,Python プログラミングの 24 つの異なる側面にわたる LLM を厳格に評価するために設計された多次元ベンチマークデータセットである CodeEval を紹介する。データセットは3つの習熟レベル – 初心者、中間、高度な – をカバーし、詳細な問題仕様と包括的なテストスイートを備えたクラスベースおよび関数ベースの問題タイプを含む。これはオープンソースの実行フレームワークで、研究者にCodeEvalの使える評価パイプラインを提供する。 RunCodeEvalは、テスト実行、コンテキスト設定、メトリクス生成を処理し、複雑性レベル、問題タイプ、プログラミングカテゴリにわたるモデルの長所と短所に関する詳細な洞察を素早く得る。この組み合わせにより、LLMのプログラミング能力の向上を目標評価とガイドすることができる。

関連論文リスト

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments [1.3999481573773072]
本稿では,命令追従機能の評価を行うマルチ言語ベンチマークを提案する。本ベンチマークでは、初期問題に規定された事前定義された制約の順守と、フォローアップ命令に基づいて改善を行う能力の2つの主要な設定で命令に従うことを評価する。
論文参考訳（メタデータ） (2025-10-31T15:47:07Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文参考訳（メタデータ） (2025-05-21T04:59:44Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。 ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文参考訳（メタデータ） (2025-02-28T09:12:42Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。