論文の概要: CoreCodeBench: A Configurable Multi-Scenario Repository-Level Benchmark
- arxiv url: http://arxiv.org/abs/2507.05281v1
- Date: Fri, 04 Jul 2025 09:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.178796
- Title: CoreCodeBench: A Configurable Multi-Scenario Repository-Level Benchmark
- Title(参考訳): CoreCodeBench: 構成可能なマルチシナリオリポジトリレベルのベンチマーク
- Authors: Lingyue Fu, Hao Guan, Bolun Zhang, Haowei Yuan, Yaoming Zhu, Jun Xu, Zongyu Wang, Lin Qiu, Xunliang Cai, Xuezhi Cao, Weiwen Liu, Weinan Zhang, Yong Yu,
- Abstract要約: 大規模言語モデル(LLM)は、ますます高度なコード処理能力を示している。
エンジニアリングレベルのコードでのパフォーマンスを評価することは、依然として難しい。
既存のリポジトリレベルのベンチマークは主に、コード生成やバグ修正のような単一のシナリオに焦点を当てている。
リポジトリを包括的なテストケースに変換する、完全に自動化されたパイプラインであるCorePipeを紹介します。
- 参考スコア(独自算出の注目度): 36.535790823814516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) demonstrate increasingly sophisticated code processing capabilities, evaluating their performance on engineering-level code remains challenging. Existing repository-level benchmarks primarily focus on single scenarios, such as code generation or bug fixing, without adequately capturing the diversity and complexity of real-world software or project engineering workflows. Furthermore, these benchmarks suffer from limited controllability in question positioning and reliability issues in their generated test cases. To address these limitations, we present CorePipe, a fully automated pipeline that converts repositories into comprehensive test cases, and introduce CoreCodeBench, a configurable multi-scenario repository-level benchmark. To simulate real engineering scenarios, CorePipe generates three types of atomic questions (Development, BugFix, and Test-Driven Development) specifically targeting core code segments. These atomic questions are further combined into three types of composite questions, with difficulty levels flexibly adjusted through hyperparameter tuning. CoreCodeBench provides a comprehensive and extensive repository-level benchmark to investigate the applicability of LLMs in real-world engineering projects. Experiments with 16 LLMs across diverse scenarios reveal varying capabilities and offer multi-dimensional insights into LLM performance in engineering contexts. The code for CorePipe is available at https://github.com/AGI-Eval-Official/CoreCodeBench, and the data for CoreCodeBench can be accessed at https://huggingface.co/collections/tubehhh/corecodebench-68256d2faabf4b1610a08caa.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます高度なコード処理能力を示すため、エンジニアリングレベルのコードでの性能を評価することは依然として困難である。
既存のリポジトリレベルのベンチマークは、実際のソフトウェアやプロジェクトエンジニアリングワークフローの多様性や複雑さを適切に把握することなく、コード生成やバグ修正のような単一のシナリオに重点を置いている。
さらに、これらのベンチマークは、生成されたテストケースにおける問題の位置決めと信頼性の問題において、限定的な制御性に悩まされている。
これらの制限に対処するために、リポジトリを包括的なテストケースに変換する完全に自動化されたパイプラインであるCorePipeを紹介し、設定可能なマルチシナリオリポジトリレベルのベンチマークであるCoreCodeBenchを紹介します。
実際のエンジニアリングシナリオをシミュレートするために、CorePipeは、コアコードセグメントに特化した3つのタイプの原子質問(開発、BugFix、テスト駆動開発)を生成する。
これらの原子質問は、3種類の複合質問にさらに組み合わされ、困難度はハイパーパラメータチューニングによって柔軟に調整される。
CoreCodeBenchは、現実のエンジニアリングプロジェクトにおけるLLMの適用性を調べるために、包括的で広範なリポジトリレベルのベンチマークを提供する。
さまざまなシナリオにわたる16のLLMの実験では、さまざまな能力を示し、エンジニアリングコンテキストにおけるLLMのパフォーマンスに関する多次元的な洞察を提供する。
CorePipeのコードはhttps://github.com/AGI-Eval-Official/CoreCodeBenchで、CoreCodeBenchのデータはhttps://huggingface.co/collections/tubehh/corecodebench-68256d2faabf4b1610a08caaでアクセスできる。
関連論文リスト
- SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.14778133391999]
FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。
83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文 参考訳(メタデータ) (2025-03-09T16:11:57Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。