論文の概要: A Deep Dive into Large Language Models for Automated Bug Localization and Repair
- arxiv url: http://arxiv.org/abs/2404.11595v1
- Date: Wed, 17 Apr 2024 17:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 12:56:30.595873
- Title: A Deep Dive into Large Language Models for Automated Bug Localization and Repair
- Title(参考訳): バグの自動局所化と修復のための大規模言語モデルへの深い取り組み
- Authors: Soneya Binta Hossain, Nan Jiang, Qiang Zhou, Xiaopeng Li, Wen-Hao Chiang, Yingjun Lyu, Hoan Nguyen, Omer Tripp,
- Abstract要約: 大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.756202755547024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive effectiveness in various software engineering tasks, including automated program repair (APR). In this study, we take a deep dive into automated bug fixing utilizing LLMs. In contrast to many deep learning-based APR methods that assume known bug locations, rely on line-level localization tools, or address bug prediction and fixing in one step, our approach uniquely employs LLMs to predict bug location at the token level and subsequently utilizes them for bug fixing. This methodological separation of bug localization and fixing using different LLMs enables effective integration of diverse contextual information and improved incorporation of inductive biases. We introduce Toggle: Token-Granulated Bug Localization and Repair, a comprehensive program repair framework that integrates a bug localization model, an adjustment unit, and a bug-fixing model. Toggle takes a buggy function as input and generates a complete corrected function. We investigate various styles of prompting to the bug fixing model to identify the most effective prompts that better utilize the inductive bias and significantly outperform others. Toggle achieves the new state-of-the-art (SOTA) performance on the CodeXGLUE code refinement benchmark, and exhibits better and comparable performance on several other widely-used APR datasets, including Defects4J.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
既知のバグ位置を仮定したり、ラインレベルのローカライズツールに依存する、あるいは1ステップでバグの予測と修正を行う、ディープラーニングベースのAPRメソッドとは対照的に、当社のアプローチでは、トークンレベルでのバグ位置を予測するためにLSMを独自に使用し、その後バグ修正に利用しています。
異なるLLMを用いたバグローカライゼーションと修正の方法論は,多様なコンテキスト情報の効果的な統合と帰納的バイアスの取り込みの改善を可能にする。
Toggle: Token-Granulated Bug Localization and repairは、バグローカライゼーションモデル、調整ユニット、バグ修正モデルを統合する包括的なプログラム修復フレームワークである。
Toggleはバギー関数を入力として、完全な修正関数を生成する。
本稿では, バグ修正モデルに対して, 誘導バイアスをより有効に活用し, 他よりも著しく優れる最も効果的なプロンプトを特定するための, 様々な手法について検討する。
Toggleは、CodeXGLUEコードリファインメントベンチマークにおける新しい最先端(SOTA)パフォーマンスを実現し、Defects4Jを含む、他の広く使用されているAPRデータセットで、より良く、同等のパフォーマンスを示す。
関連論文リスト
- A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [41.07986475196358]
我々は,Large Language Models (LLMs) を通じて,最初の自動統合デバッグフレームワーク FixAgent を提案する。
FixAgentは、エンドツーエンドのローカライズ、修復、バグの分析を行うことができる。
広く使われているデータセットQuixBugsの実験によると、FixAgentは80のバグのうち79の修正を正しく行っており、そのうち9つは修正されていない。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications [5.395614997568524]
本稿では,アロイの宣言的仕様を修復するためのLarge Language Models (LLMs) の能力について,体系的に検討する。
本稿では, 補修エージェントとプロンプトエージェントを組み合わせた, 二重エージェントLLMフレームワークを統合した新しい補修パイプラインを提案する。
本研究は, LLM, 特に GPT-4 変種が, 実行時およびトークン使用率の限界が増大しているにもかかわらず, 修復効率において既存の技術よりも優れていたことを明らかにした。
論文 参考訳(メタデータ) (2024-04-17T03:46:38Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - STEAM: Simulating the InTeractive BEhavior of ProgrAMmers for Automatic
Bug Fixing [37.70518599085676]
我々は、バグ解決の協調性をシミュレートするSTEAMという新しいステージワイドフレームワークを紹介した。
バグ修正タスクを,バグ報告,バグ診断,パッチ生成,パッチ検証の4つのステージに分割する。
広く採用されているバグフィックスベンチマークによる評価は、STEAMが最新のバグフィックス性能を新たに達成したことを示している。
論文 参考訳(メタデータ) (2023-08-28T09:56:12Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Adversarial Patch Generation for Automated Program Repair [0.0]
NEVERMOREは、バグと修正の敵対的な性質にインスパイアされた、新しい学習ベースのメカニズムである。
NEVERMOREはGenerative Adrial Networksアーキテクチャに基づいて構築されており、人為的な修正を忠実に模倣する修正を生成するために、歴史的なバグ修正を訓練している。
実世界の500のバグに対する実証的な評価は、NEVERMOREがバグ修正に有効であることを示し、調査対象のバグの21.2%が人間の修正にマッチする修復を生成する。
論文 参考訳(メタデータ) (2020-12-21T00:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。