Fugu-MT 論文翻訳(概要): Defects4C: Benchmarking Large Language Model Repair Capability with C/C++ Bugs

論文の概要: Defects4C: Benchmarking Large Language Model Repair Capability with C/C++ Bugs

arxiv url: http://arxiv.org/abs/2510.11059v1
Date: Mon, 13 Oct 2025 06:49:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:30.229833
Title: Defects4C: Benchmarking Large Language Model Repair Capability with C/C++ Bugs
Title（参考訳）: Defects4C: C/C++バグによる大規模言語モデル修復機能のベンチマーク
Authors: Jian Wang, Xiaofei Xie, Qiang Hu, Shangqing Liu, Jiongchi Yu, Jiaolong Klong, Yi Li,
Abstract要約: 自動プログラム修復(APR)は、ソフトウェアシステムの品質と信頼性を高める上で重要な役割を果たす。 C/C++の広範な使用と関連する脆弱性の頻度にもかかわらず、C/C++プログラムの修復に関する研究には大きなギャップが残っている。 C/C++プログラムの修正に特化して設計されたベンチマークであるDefects4Cを紹介する。
参考スコア（独自算出の注目度）: 22.51003705398642
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated Program Repair (APR) plays a critical role in enhancing the quality and reliability of software systems. While substantial progress has been made in Java-based APR, largely facilitated by benchmarks like Defects4J, there remains a significant gap in research on C/C++ program repair, despite the widespread use of C/C++ and the prevalence of associated vulnerabilities. This gap is primarily due to the lack of high-quality, open-source benchmarks tailored for C/C++. To address this issue, we introduce Defects4C, a comprehensive and executable benchmark specifically designed for C/C++ program repair. Our dataset is constructed from real-world C/C++ repositories and includes a large collection of bug-relevant commits (9M in total), 248 high-quality buggy functions, and 102 vulnerable functions, all paired with test cases for reproduction. These resources enable rigorous evaluation of repair techniques and support the retraining of learning-based approaches for enhanced performance. Using Defects4C, we conduct a comprehensive empirical study evaluating the effectiveness of 24 state-of-the-art large language models (LLMs) in repairing C/C++ faults. Our findings offer valuable insights into the strengths and limitations of current LLM-based APR techniques in this domain, highlighting both the need for more robust methods and the critical role of Defects4C in advancing future research
Abstract（参考訳）: 自動プログラム修復(APR)は、ソフトウェアシステムの品質と信頼性を高める上で重要な役割を果たす。 Defects4Jのようなベンチマークによって大きく促進されたJavaベースのAPRでは大きな進歩があったが、C/C++の広範な使用と関連する脆弱性の頻度にもかかわらず、C/C++プログラムの修復に関する研究には大きなギャップが残っている。このギャップは、主にC/C++用に調整された高品質のオープンソースベンチマークが欠如しているためである。この問題に対処するため,C/C++プログラムの修正に特化して設計された総合的かつ実行可能なベンチマークであるDefects4Cを紹介した。我々のデータセットは現実世界のC/C++リポジトリから構築されており、大量のバグ関連コミット(合計9M)、248の高品質バグギー関数、102の脆弱性関数が含まれており、すべて再現のためのテストケースと組み合わせています。これらの資源は, 補修技術の厳密な評価を可能にし, 性能向上のための学習ベースアプローチの再訓練を支援する。 Defects4Cを用いて,C/C++欠陥の修復における24の最先端の大規模言語モデル(LLM)の有効性を評価する。我々の発見は、この領域における現在のLLMベースのAPR技術の長所と短所に関する貴重な知見を提供し、より堅牢な手法の必要性と、将来の研究を進める上でのDefects4Cの重要性の両方を強調している。

関連論文リスト

CCrepairBench: A High-Fidelity Benchmark and Reinforcement Learning Framework for C++ Compilation Repair [18.624106902572155]
CCrepairは、洗練された生成と検証パイプラインによって構築された、新しい大規模C++コンパイルエラーデータセットである。第2に,ハイブリッド報酬信号で導かれる強化学習パラダイムを提案し,その焦点を単なるコンパイル性から修正の意味的品質にシフトさせる。
論文参考訳（メタデータ） (2025-09-19T07:06:27Z)
Automated Repair of C Programs Using Large Language Models [0.0]
本研究では,Cプログラムの修復を自動化する上で,LLM(Large Language Models)の可能性について検討する。本稿では,SBFL(Spectrum-based Fault Localization),ランタイムフィードバック,Chain-of-Thought-structured(Chain-of-Thought-structured)を自動修復ループに統合するフレームワークを提案する。我々の手法は44.93%の修理精度を達成し、最先端のAPRベースラインに対する3.61%の絶対的な改善を示している。
論文参考訳（メタデータ） (2025-09-02T04:34:11Z)
Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。 JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文参考訳（メタデータ） (2025-07-25T23:29:25Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
CCISolver: End-to-End Detection and Repair of Method-Level Code-Comment Inconsistency [33.30328162446649]
CCI(Code-comment Inconsistency)は、ソフトウェア開発、テスト、メンテナンスに悪影響を及ぼす可能性がある。我々は,CCIの識別と修正によるコード品質の向上を目的とした,革新的なエンドツーエンドフレームワークであるCCIBenchを提案する。
論文参考訳（メタデータ） (2025-06-25T15:56:07Z)
SoK: Automated Vulnerability Repair: Methods, Tools, and Assessments [21.762329874797086]
手動による脆弱性の修復は、人間の専門家に依存しているため、労働集約的で時間を要する。本稿では,脆弱性分析,パッチ生成,パッチ検証という3段階のワークフローを通じて,メソッドの体系化について述べる。 Vul4Cを使ってC/C++プログラムの7つのツールを評価し、サードパーティのVul4Jデータセットを使ってJavaプログラムの2つのツールを評価します。
論文参考訳（メタデータ） (2025-06-13T11:59:04Z)
How Far Can We Go with Practical Function-Level Program Repair? [11.71750828464698]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文参考訳（メタデータ） (2024-04-19T12:14:09Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。