論文の概要: On the need to perform comprehensive evaluations of automated program repair benchmarks: Sorald case study
- arxiv url: http://arxiv.org/abs/2508.15135v1
- Date: Thu, 21 Aug 2025 00:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.130687
- Title: On the need to perform comprehensive evaluations of automated program repair benchmarks: Sorald case study
- Title(参考訳): 自動プログラム修復ベンチマークの総合的評価の必要性について:ソラッドケーススタディ
- Authors: Sumudu Liyanage, Sherlock A. Licorish, Markus Wagner, Stephen G. MacDonell,
- Abstract要約: 自動プログラム修復(APR)ツールは、静的解析プロファイラによって検出された違反に自動的に対処することで、コード品質を改善することを目的としている。
これまでの研究では、APRツールは違反をクリアする能力のためにのみ評価される傾向があった。
本研究では,最先端のAPRツールであるSoraldを概念実証として評価する。
- 参考スコア(独自算出の注目度): 4.968268396950843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In supporting the development of high-quality software, especially necessary in the era of LLMs, automated program repair (APR) tools aim to improve code quality by automatically addressing violations detected by static analysis profilers. Previous research tends to evaluate APR tools only for their ability to clear violations, neglecting their potential introduction of new (sometimes severe) violations, changes to code functionality and degrading of code structure. There is thus a need for research to develop and assess comprehensive evaluation frameworks for APR tools. This study addresses this research gap, and evaluates Sorald (a state-of-the-art APR tool) as a proof of concept. Sorald's effectiveness was evaluated in repairing 3,529 SonarQube violations across 30 rules within 2,393 Java code snippets extracted from Stack Overflow. Outcomes show that while Sorald fixes specific rule violations, it introduced 2,120 new faults (32 bugs, 2088 code smells), reduced code functional correctness--as evidenced by a 24% unit test failure rate--and degraded code structure, demonstrating the utility of our framework. Findings emphasize the need for evaluation methodologies that capture the full spectrum of APR tool effects, including side effects, to ensure their safe and effective adoption.
- Abstract(参考訳): LLMの時代に特に必要とされる高品質なソフトウェアの開発を支援するために、自動プログラム修復(APR)ツールは静的解析プロファイラによって検出された違反に自動的に対処することで、コード品質を改善することを目的としている。
以前の調査では、APRツールの評価は、違反をクリアする能力、新しい(時には深刻な)違反の導入、コード機能の変更、コード構造の劣化を無視するだけであった。
したがって、APRツールの総合的な評価フレームワークを開発し、評価する研究が必要である。
本研究では、この研究ギャップに対処し、Sorald(最先端のAPRツール)を概念実証として評価する。
Soraldの有効性は、Stack Overflowから抽出された2,393のJavaコードスニペット内の30のルールにわたる3,529のSonarQube違反の修復で評価された。
結果から、Soraldは特定のルール違反を修正する一方で、2,120の新しい障害(32のバグ、2088のコードの臭い)を導入し、コード機能の正しさを低下させました。
発見は、安全性と効果的な採用を保証するために、副作用を含むAPRツール効果の全スペクトルを捉える評価方法の必要性を強調している。
関連論文リスト
- Automated Code Repair for C/C++ Static Analysis Alerts [1.260797434681533]
静的解析(SA)ツールは、CまたはC++のソースコードが欠陥があることを示す多くの診断アラートを生成する。
本稿では、複数のSAツールによって生成された3つのカテゴリの警告に関連するC/C++コードを修復するAPRツールに対して、設計、開発、パフォーマンステストの適用について詳述する。
論文 参考訳(メタデータ) (2025-08-04T18:44:50Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。
これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。
JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文 参考訳(メタデータ) (2025-07-25T23:29:25Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。
実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z) - A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback [7.742213291781287]
提案するVRpilotは,推論とパッチ検証フィードバックに基づく脆弱性修復手法である。
以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:29:48Z) - FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools [18.927121513404924]
ASAT(Automated Static Analysis Tools)は、バグ検出を支援するために、時間とともに進化してきた。
これまでの研究は、報告された警告を検証するための学習ベースの方法を探究してきた。
我々は,バグに敏感な警告をきめ細かい粒度で検証する学習ベースアプローチであるFineWAVEを提案する。
論文 参考訳(メタデータ) (2024-03-24T06:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。