Fugu-MT 論文翻訳(概要): Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models

論文の概要: Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models

arxiv url: http://arxiv.org/abs/2506.03283v1
Date: Tue, 03 Jun 2025 18:15:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:13.998417
Title: Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた汎用型自動プログラム修復の実証評価
Authors: Viola Campos, Ridwan Shariffdeen, Adrian Ulges, Yannic Noller,
Abstract要約: 自動プログラム修正は、開発者がソフトウェアをメンテナンスするのを助けるバグ修正を提案する。近年の研究では、LLMを修復に利用できることが示されている。オープンモデル (Llama 3.3, Qwen 2.5 Coder, DeepSeek R1 (dist.) など) やクローズドモデル (o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash など) を含む,最新の13モデルの多種多様なセットを評価した。
参考スコア（独自算出の注目度）: 4.757323827658957
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated Program Repair (APR) proposes bug fixes to aid developers in maintaining software. The state of the art in this domain focuses on using LLMs, leveraging their strong capabilities to comprehend specifications in natural language and to generate program code. Recent works have shown that LLMs can be used to generate repairs. However, despite the APR community's research achievements and several industry deployments in the last decade, APR still lacks the capabilities to generalize broadly. In this work, we present an intensive empirical evaluation of LLMs for generating patches. We evaluate a diverse set of 13 recent models, including open ones (e.g., Llama 3.3, Qwen 2.5 Coder, and DeepSeek R1 (dist.)) and closed ones (e.g., o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash). In particular, we explore language-agnostic repairs by utilizing benchmarks for Java (e.g., Defects4J), JavaScript (e.g., BugsJS), Python (e.g., BugsInPy), and PHP (e.g., BugsPHP). Besides the generalization between different languages and levels of patch complexity, we also investigate the effects of fault localization (FL) as a preprocessing step and compare the progress for open vs closed models. Our evaluation represents a snapshot of the current repair capabilities of the latest LLMs. Key results include: (1) Different LLMs tend to perform best for different languages, which makes it hard to develop cross-platform repair techniques with single LLMs. (2) The combinations of models add value with respect to uniquely fixed bugs, so a committee of expert models should be considered. (3) Under realistic assumptions of imperfect FL, we observe significant drops in accuracy from the usual practice of using perfect FL. Our findings and insights will help both researchers and practitioners develop reliable and generalizable APR techniques and evaluate them in realistic and fair environments.
Abstract（参考訳）: 自動プログラム修復(APR)は、開発者がソフトウェアを維持するのに役立つバグ修正を提案する。この領域の最先端技術は、LLMの使用に焦点を当て、自然言語の仕様を理解し、プログラムコードを生成する強力な能力を活用している。近年の研究では、LLMを修復に利用できることが示されている。しかし、APRコミュニティの過去10年間の研究成果といくつかの産業展開にもかかわらず、APRは広く一般化する能力に欠けていた。本研究では,パッチ生成のためのLSMの集中的評価について述べる。オープンなもの(例: Llama 3.3, Qwen 2.5 Coder, DeepSeek R1, dist.)やクローズドなもの(例: o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash)を含む,最新の13モデルのさまざまなセットを評価した。特に、Java(eg , Defects4J)、JavaScript(eg , BugsJS)、Python(eg , BugsInPy)、PHP(eg , BugsPHP)のベンチマークを利用して、言語に依存しない修復について検討する。異なる言語間の一般化とパッチの複雑さのレベルに加えて、前処理ステップとしてのフォールトローカライゼーション(FL)の効果についても検討し、オープンモデルとクローズドモデルの比較を行う。我々の評価は、最新のLLMの現在の修理能力のスナップショットである。 1) 異なるLLMは、異なる言語でよく機能する傾向があるため、単一のLLMでクロスプラットフォームの修復技術を開発するのが難しくなる。 2) モデルの組み合わせは、一意に固定されたバグに対して価値を付加するので、専門家モデルの委員会を検討すべきである。 (3)不完全なFLの現実的な仮定の下では,完全FLを用いる通常の実践からかなりの精度の低下が観察される。我々の発見と洞察は、研究者と実践者が信頼性と一般化可能なAPR技術を開発し、それらを現実的で公正な環境で評価するのに役立ちます。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
Empirical Evaluation of Large Language Models in Automated Program Repair [11.840927951970146]
大規模言語モデル(LLM)は、自動プログラム修復(APR)のための新しい機会を提供する我々は,7Bから33Bパラメータ,多様なアーキテクチャ,目的の4つのオープンソースLLM,CodeLlama,LLaMA,StarCoder,DeepSeek-Coderを研究した。 2つのバグシナリオ(エンタプライズグレードとアルゴリズム)、3つの言語(Java、C/C++、Python)と4つのプロンプト戦略で評価し、6つのベンチマークで600万以上の生成されたパッチを分析しました。
論文参考訳（メタデータ） (2025-06-16T07:52:15Z)
Automated Repair of Ambiguous Natural Language Requirements [9.379494157034083]
あいまいなNL要求の自動修復の問題を紹介する。我々の重要な新規性は、この問題をメタ認知的推論を必要としないより単純なサブプロブレムに分解することである。この手法をSpecFixで実装し,3つのSOTA LLM, GPT-4o, DeepSeek-V3, Qwen2.5-Coder-32b-Instructを用いて評価する。
論文参考訳（メタデータ） (2025-05-12T06:47:53Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。 BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2025-02-19T18:59:32Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Aligning the Objective of LLM-based Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文参考訳（メタデータ） (2024-04-13T02:36:40Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。 GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文参考訳（メタデータ） (2023-09-05T04:12:01Z)
A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization [12.80414941523501]
AutoFLは、提案された障害位置とともに、バグの説明を生成する。 JavaとPythonの798の現実世界のバグの実験では、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。
論文参考訳（メタデータ） (2023-08-10T10:26:55Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。