論文の概要: Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation
- arxiv url: http://arxiv.org/abs/2510.26130v1
- Date: Thu, 30 Oct 2025 04:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.659784
- Title: Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation
- Title(参考訳): シンセティックベンチマークを超えて - 実世界のクラスレベルコード生成におけるLLMパフォーマンスの評価
- Authors: Musfiqur Rahman, SayedHassan Khatoonabadi, Emad Shihab,
- Abstract要約: 本研究は,オープンソースのリポジトリから得られた新しいベンチマークを導入し,実用条件下での一般化を評価する。
LLMは、確立された総合ベンチマークで84%から89%の正当性を達成するが、実世界のクラスタスクでは25%から34%しか達成していない。
- 参考スコア(独自算出の注目度): 3.9189409002585567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have advanced code generation at the function level, yet their ability to produce correct class-level implementations in authentic software projects remains poorly understood. This work introduces a novel benchmark derived from open-source repositories, comprising real-world classes divided into seen and unseen partitions to evaluate generalization under practical conditions. The evaluation examines multiple LLMs under varied input specifications, retrieval-augmented configurations, and documentation completeness levels. Results reveal a stark performance disparity: LLMs achieve 84% to 89% correctness on established synthetic benchmarks but only 25% to 34% on real-world class tasks, with negligible differences between familiar and novel codebases. Comprehensive docstrings yield modest gains of 1% to 3% in functional accuracy, though statistical significance is rare. Retrieval-augmented generation proves most effective with partial documentation, improving correctness by 4% to 7% by supplying concrete implementation patterns absent from specifications. Error profiling identifies AttributeError, TypeError, and AssertionError as dominant failure modes (84% of cases), with synthetic tests overemphasizing assertion issues and real-world scenarios highlighting type and attribute mismatches. Retrieval augmentation reduces logical flaws but can introduce dependency conflicts. The benchmark and analysis expose critical limitations in current LLM capabilities for class-level engineering, offering actionable insights for enhancing context modelling, documentation strategies, and retrieval integration in production code assistance tools.
- Abstract(参考訳): 大規模言語モデル(LLM)は関数レベルで高度なコード生成を行うが、真のソフトウェアプロジェクトで適切なクラスレベルの実装を作成する能力はいまだによく分かっていない。
本研究は、実世界のクラスを、実環境下での一般化を評価するために、目に見えるパーティションと見えないパーティションに分割した、オープンソースのリポジトリから派生した新しいベンチマークを紹介する。
評価では、入力仕様、検索拡張構成、ドキュメント完全性レベルに基づいて複数のLCMを検査する。
LLMは、確立された総合ベンチマークで84%から89%の正確性を達成するが、実世界のクラスタスクでは25%から34%しか達成していない。
包括的ドクストリングは機能的精度で1%から3%の適度な利得を得るが、統計的意義は稀である。
Retrieval-augmented Generationは、部分的なドキュメントで最も有効であることが証明され、仕様から欠落した具体的な実装パターンを提供することで、正確さを4%から7%向上させる。
エラープロファイリングでは、AttributeError、TypeError、AssertionErrorを支配的な障害モード(ケースの84%)と定義している。
検索の強化は論理的な欠陥を減らすが、依存関係の衝突を起こす可能性がある。
ベンチマークと分析は、コンテキストモデリング、ドキュメンテーション戦略、プロダクションコードアシストツールでの検索統合を強化するための実用的な洞察を提供する、クラスレベルのエンジニアリングのための現在のLLM機能における重要な制限を明らかにしている。
関連論文リスト
- Benchmarking LLMs for Unit Test Generation from Real-World Functions [34.70460519870186]
ULT(UnLeakedTestbench)は,実世界のPython関数から関数レベルのユニットテストを生成するために設計された,新しいベンチマークである。
3,909個の関数レベルのタスクを慎重に選択することで、ULTはLLMのテスト生成能力をより現実的で挑戦的な評価を提供する。
以上の結果から,ULTはより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-08-01T08:08:26Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation [19.69195067838796]
クラスレベルのコード翻訳ベンチマークであるClassEval-Tを構築し、クラスレベルのコード翻訳における最近のLLMの性能を広範囲に評価する最初の試みを行う。
完全なコードサンプルと関連するテストスイートを使って、JavaとC++への手動移行を実現するのに、私たちは360人時間を費やしました。
実験結果は,最も広く研究されているメソッドレベルのコード翻訳ベンチマークと比較して,顕著な性能低下を示した。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。