論文の概要: EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems
- arxiv url: http://arxiv.org/abs/2602.10171v1
- Date: Tue, 10 Feb 2026 14:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.215882
- Title: EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems
- Title(参考訳): EvoCodeBench: LLM駆動の自己進化型符号化システムのためのヒューマンパフォーマンスベンチマーク
- Authors: Wentao Zhang, Jianfeng Wang, Liheng Liang, Yilei Zhao, HaiBin Wen, Zhe Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、ワンショットコード生成から推論時に反復的な改善が可能な複雑なシステムへと進化してきた。
EvoCodeBench(エボCodeBench)は、プログラミング言語間で自己進化するLLM駆動型コーディングシステムを評価するためのベンチマークである。
その結果, 自己進化システムは時間とともに効率が向上し, 人間の相対的・多言語的分析は, 精度だけでは不可能な洞察を与えることがわかった。
- 参考スコア(独自算出の注目度): 24.49186459186861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to advance in programming tasks, LLM-driven coding systems have evolved from one-shot code generation into complex systems capable of iterative improvement during inference. However, existing code benchmarks primarily emphasize static correctness and implicitly assume fixed model capability during inference. As a result, they do not capture inference-time self-evolution, such as whether accuracy and efficiency improve as an agent iteratively refines its solutions. They also provide limited accounting of resource costs and rarely calibrate model performance against that of human programmers. Moreover, many benchmarks are dominated by high-resource languages, leaving cross-language robustness and long-tail language stability underexplored. Therefore, we present EvoCodeBench, a benchmark for evaluating self-evolving LLM-driven coding systems across programming languages with direct comparison to human performance. EvoCodeBench tracks performance dynamics, measuring solution correctness alongside efficiency metrics such as solving time, memory consumption, and improvement algorithmic design over repeated problem-solving attempts. To ground evaluation in a human-centered reference frame, we directly compare model performance with that of human programmers on the same tasks, enabling relative performance assessment within the human ability distribution. Furthermore, EvoCodeBench supports multiple programming languages, enabling systematic cross-language and long-tail stability analyses under a unified protocol. Our results demonstrate that self-evolving systems exhibit measurable gains in efficiency over time, and that human-relative and multi-language analyses provide insights unavailable through accuracy alone. EvoCodeBench establishes a foundation for evaluating coding intelligence in evolving LLM-driven systems.
- Abstract(参考訳): 大規模言語モデル(LLM)がプログラミングタスクの進歩を続けるにつれて、LLM駆動のコーディングシステムはワンショットコード生成から推論の繰り返し改善が可能な複雑なシステムへと進化してきた。
しかし、既存のコードベンチマークは主に静的な正確さを強調し、推論中に暗黙的に固定モデルの能力を仮定する。
結果として、エージェントが反復的に解を洗練して精度と効率が向上するかどうかなど、推論時の自己進化を捉えない。
また、リソースコストの限定的な説明も提供し、人間のプログラマとモデルパフォーマンスの調整はめったに行われない。
さらに、多くのベンチマークは高リソース言語に支配されており、クロスランゲージの堅牢性と長い尾の言語の安定性が過小評価されている。
そこで本研究では,プログラム言語間で自己進化型LLM駆動型プログラミングシステムを評価するためのベンチマークであるEvoCodeBenchについて,人的性能と直接比較した。
EvoCodeBenchは、繰り返し発生する問題解決の試みよりも、時間、メモリ消費、アルゴリズム設計の改善といった効率指標とともに、パフォーマンスのダイナミクス、ソリューションの正確性を測定する。
人中心の参照フレームで評価を行うため、モデル性能と人間プログラマのタスクを直接比較し、人間の能力分布内で相対的な性能評価を可能にする。
さらに、EvoCodeBenchは複数のプログラミング言語をサポートし、統一されたプロトコルの下で、体系的なクロスランゲージとロングテールの安定性解析を可能にする。
その結果, 自己進化システムは時間とともに効率が向上し, 人間の相対的・多言語的分析は, 精度だけでは不可能な洞察を与えることがわかった。
EvoCodeBenchは、LLM駆動システムの進化において、コーディングインテリジェンスを評価する基盤を確立する。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Machine Learning Pipeline for Software Engineering: A Systematic Literature Review [0.0]
この系統的な文献レビューは、ソフトウェア工学(SE)用に設計された最先端の機械学習パイプラインを検証している。
この結果から,データバランシングのためのSMOTEなどの堅牢な前処理がモデルの信頼性を向上させることが示唆された。
ランダムフォレストやグラディエントブースティングのようなアンサンブルメソッドはタスク間でパフォーマンスを支配します。
Best Arithmetic Mean (BAM)のような新しいメトリクスはニッチなアプリケーションに現れている。
論文 参考訳(メタデータ) (2025-07-31T15:37:30Z) - Program Semantic Inequivalence Game with Large Language Models [20.43560028315856]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。
本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。
この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文 参考訳(メタデータ) (2025-05-02T20:03:35Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers [44.28269395385471]
既存のベンチマークや、より好ましいLCM応答が、LLMでコーディングする際のプログラマの生産性に変換されるかどうかを調査する。
プログラマを支援するための LLM の能力を測定するための Web インターフェースである RealHumanEval を紹介する。
人間をループに組み込まない静的なベンチマークにもかかわらず、ベンチマークパフォーマンスの改善は、プログラマの生産性を向上させる。
論文 参考訳(メタデータ) (2024-04-03T15:20:57Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。