論文の概要: ComBench: A Repo-level Real-world Benchmark for Compilation Error Repair
- arxiv url: http://arxiv.org/abs/2603.27333v1
- Date: Sat, 28 Mar 2026 16:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.908038
- Title: ComBench: A Repo-level Real-world Benchmark for Compilation Error Repair
- Title(参考訳): ComBench: コンパイルエラーの修正のためのリポジトリレベルの実世界のベンチマーク
- Authors: Jia Li, Zeyang Zhuang, Zhuangbin Chen, Yuxin Su, Wei Meng, Michael R. Lyu,
- Abstract要約: ComBenchは、C/C++コンパイルエラー修正のための最初のリポジトリレベルの再現可能な実世界のベンチマークである。
ComBenchは、GitHub CI履歴から現実の障害をマイニングする、新しい自動化フレームワークによって構築されている。
本実験は,モデルが構文的正当性を達成する能力と,意味的正当性を保証する能力との間に有意なギャップがあることを明らかにする。
- 参考スコア(独自算出の注目度): 36.10273400046946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compilation errors pose pervasive and critical challenges in software development, significantly hindering productivity. Therefore, Automated Compilation Error Repair (ACER) techniques are proposed to mitigate these issues. Despite recent advancements in ACER, its real-world performance remains poorly evaluated. This can be largely attributed to the limitations of existing benchmarks, \ie decontextualized single-file data, lack of authentic source diversity, and biased local task modeling that ignores crucial repository-level complexities. To bridge this critical gap, we propose ComBench, the first repository-level, reproducible real-world benchmark for C/C++ compilation error repair. ComBench is constructed through a novel, automated framework that systematically mines real-world failures from the GitHub CI histories of large-scale open-source projects. Our framework contributes techniques for the high-precision identification of ground-truth repair patches from complex version histories and a high-fidelity mechanism for reproducing the original, ephemeral build environments. To ensure data quality, all samples in ComBench are execution-verified -- guaranteeing reproducible failures and build success with ground-truth patches. Using ComBench, we conduct a comprehensive evaluation of 12 modern LLMs under both direct and agent-based repair settings. Our experiments reveal a significant gap between a model's ability to achieve syntactic correctness (a 73% success rate for GPT-5) and its ability to ensure semantic correctness (only 41% of its patches are valid). We also find that different models exhibit distinct specializations for different error types. ComBench provides a robust and realistic platform to guide the future development of ACER techniques capable of addressing the complexities of modern software development.
- Abstract(参考訳): コンパイルエラーは、ソフトウェア開発において広範囲で重要な課題を引き起こし、生産性を著しく妨げます。
そのため、これらの問題を緩和するため、自動コンパイルエラー修復(ACER)技術が提案されている。
ACERの最近の進歩にもかかわらず、実際の性能は評価されていない。
これは、既存のベンチマークの制限、\ieデコンテクスト化された単一ファイルデータ、真のソースの多様性の欠如、重要なリポジトリレベルの複雑さを無視したローカルタスクモデリングのバイアスによるところが大きい。
この重要なギャップを埋めるため、我々はC/C++コンパイルエラー修正のための最初のリポジトリレベルの再現可能な実世界のベンチマークであるComBenchを提案する。
ComBenchは、大規模なオープンソースプロジェクトのGitHub CI履歴から現実の障害を体系的にマイニングする、新しい自動化フレームワークによって構築されている。
本フレームワークは, 複雑なバージョン履歴からの地中構造修復パッチの高精度同定技術と, 初期ビルド環境を再現するための高忠実度機構に寄与する。
データ品質を保証するため、ComBenchのすべてのサンプルは実行検証されている。
ComBench を用いて, 直接的およびエージェント的修復条件下で, 最新の LLM を総合的に評価する。
実験の結果,構文的正当性(GPT-5の73%の成功率)と意味的正当性を保証する能力(パッチの41%が有効)との間には,大きなギャップがあることがわかった。
また、異なるモデルが異なるエラータイプに対して異なる特殊化を示すことも判明した。
ComBenchは、現代のソフトウェア開発の複雑さに対処できるACER技術の将来の開発をガイドする、堅牢で現実的なプラットフォームを提供する。
関連論文リスト
- CCrepairBench: A High-Fidelity Benchmark and Reinforcement Learning Framework for C++ Compilation Repair [18.624106902572155]
CCrepairは、洗練された生成と検証パイプラインによって構築された、新しい大規模C++コンパイルエラーデータセットである。
第2に,ハイブリッド報酬信号で導かれる強化学習パラダイムを提案し,その焦点を単なるコンパイル性から修正の意味的品質にシフトさせる。
論文 参考訳(メタデータ) (2025-09-19T07:06:27Z) - Bridging Solidity Evolution Gaps: An LLM-Enhanced Approach for Smart Contract Compilation Error Resolution [2.967464333639626]
主要なスマートコントラクト言語であるSolidityは、セキュリティ、機能、開発者エクスペリエンスを向上させるために、頻繁なバージョンアップデートによって急速に進化している。
我々は、Solidityバージョン進化の課題を調査するための実証的研究を行い、調査対象の契約の81.68%が、異なるバージョンにまたがってコンパイルされたときにエラーに遭遇し、86.92%がコンパイルエラーであることを示した。
SMCFIXERは,Solidityコンパイルエラー解決のためのLLMベースの修復機構と専門家知識検索を統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-14T10:42:26Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。
手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。
この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-20T22:37:43Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。