論文の概要: Assessing and Improving the Representativeness of Code Generation Benchmarks Using Knowledge Units (KUs) of Programming Languages -- An Empirical Study
- arxiv url: http://arxiv.org/abs/2601.03780v1
- Date: Wed, 07 Jan 2026 10:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.470395
- Title: Assessing and Improving the Representativeness of Code Generation Benchmarks Using Knowledge Units (KUs) of Programming Languages -- An Empirical Study
- Title(参考訳): プログラミング言語の知識単位(KU)を用いたコード生成ベンチマークの適応性の評価と改善 -実証的研究-
- Authors: Md Ahasanuzzaman, Bram Adams, Emad Fallahzadeh, Gustavo A. Oliva, Ahmed E. Hassan,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。
LLMは幅広い言語概念を理解し、適用しなければならない。
ベンチマークで実施される概念が現実世界のプロジェクトで使用される概念を代表していない場合、評価は不完全になる可能性がある。
- 参考スコア(独自算出の注目度): 7.0773305889955616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as GPT-4, Claude and LLaMA have shown impressive performance in code generation, typically evaluated using benchmarks (e.g., HumanEval). However, effective code generation requires models to understand and apply a wide range of language concepts. If the concepts exercised in benchmarks are not representative of those used in real-world projects, evaluations may yield incomplete. Despite this concern, the representativeness of code concepts in benchmarks has not been systematically examined. To address this gap, we present the first empirical study that analyzes the representativeness of code generation benchmarks through the lens of Knowledge Units (KUs) - cohesive sets of programming language capabilities provided by language constructs and APIs. We analyze KU coverage in two widely used Python benchmarks, HumanEval and MBPP, and compare them with 30 real-world Python projects. Our results show that each benchmark covers only half of the identified 20 KUs, whereas projects exercise all KUs with relatively balanced distributions. In contrast, benchmark tasks exhibit highly skewed KU distributions. To mitigate this misalignment, we propose a prompt-based LLM framework that synthesizes KU-based tasks to rebalance benchmark KU distributions and better align them with real-world usage. Using this framework, we generate 440 new tasks and augment existing benchmarks. The augmented benchmarks substantially improve KU coverage and achieve over a 60% improvement in distributional alignment. Evaluations of state-of-the-art LLMs on these augmented benchmarks reveal consistent and statistically significant performance drops (12.54-44.82%), indicating that existing benchmarks overestimate LLM performance due to their limited KU coverage. Our findings provide actionable guidance for building more realistic evaluations of LLM code-generation capabilities.
- Abstract(参考訳): GPT-4、Claude、LLaMAといった大規模言語モデル(LLM)は、一般的にベンチマーク(HumanEvalなど)を用いて評価される、コード生成において印象的なパフォーマンスを示している。
しかし、効果的なコード生成には、幅広い言語概念を理解し、適用する必要がある。
ベンチマークで実施される概念が現実世界のプロジェクトで使用される概念を代表していない場合、評価は不完全になる可能性がある。
この懸念にもかかわらず、ベンチマークにおけるコード概念の代表性は体系的に検討されていない。
このギャップに対処するために、我々は、言語構造とAPIによって提供されるプログラミング言語機能の密集したセットである知識ユニット(KU)を通して、コード生成ベンチマークの代表性を分析する、最初の実証的研究を提示する。
我々は、広く使われている2つのPythonベンチマークであるHumanEvalとMBPPでKUカバレッジを分析し、それを30の現実のPythonプロジェクトと比較する。
その結果、各ベンチマークは20KUの半数しかカバーしていないのに対し、プロジェクトは相対的にバランスの取れた分布を持つ全KUを処理していることがわかった。
対照的に、ベンチマークタスクは高度に歪んだKU分布を示す。
この不整合を緩和するため,KUベースのタスクを合成し,ベンチマークKU分布を再バランスさせ,実世界の利用と整合させる,プロンプトベースのLLMフレームワークを提案する。
このフレームワークを使用して、440の新しいタスクを生成し、既存のベンチマークを拡張します。
拡張ベンチマークはKUカバレッジを大幅に改善し、分散アライメントの60%以上を達成している。
これらの拡張ベンチマークにおける最先端のLCMの評価は、一貫性があり統計的に有意な性能低下(12.54-44.82%)を示し、既存のベンチマークは、KUのカバレッジが限られているため、LLMのパフォーマンスを過大評価していることを示している。
本研究は,LLM符号生成能力のより現実的な評価を構築するための実用的なガイダンスを提供する。
関連論文リスト
- AXIOM: Benchmarking LLM-as-a-Judge for Code via Rule-Based Perturbation and Multisource Quality Calibration [28.117814524373667]
AXIOMは、大規模なコード評価ベンチマークを合成するための新しい摂動ベースのフレームワークである。
プログラムスコアをデプロイメントに必要な改善作業として再設定する。
論文 参考訳(メタデータ) (2025-12-23T08:39:22Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation [3.9189409002585567]
大規模言語モデル(LLM)は関数レベルのコード生成ベンチマークで強い性能を示している。
本稿では,実環境下での一般化を評価するために,実世界のオープンソースリポジトリから得られたベンチマークを紹介する。
入力仕様の完全性と検索拡張生成が複数の最先端LCMのクラスレベルの正しさにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-30T04:30:23Z) - Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Re-Evaluating Code LLM Benchmarks Under Semantic Mutation [8.58692613099365]
本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。
本稿では,プロンプトテンプレートのセマンティクスと構造を両立させる手法として,プロンプトテンプレートを改良する汎用フレームワークを提案する。
この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。
論文 参考訳(メタデータ) (2025-06-20T15:30:36Z) - How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0]
コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。
以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。
これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-23T06:40:47Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。