論文の概要: When Large Language Models Confront Repository-Level Automatic Program
Repair: How Well They Done?
- arxiv url: http://arxiv.org/abs/2403.00448v1
- Date: Fri, 1 Mar 2024 11:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:38:53.411242
- Title: When Large Language Models Confront Repository-Level Automatic Program
Repair: How Well They Done?
- Title(参考訳): 大規模言語モデルがレポジトリレベルの自動プログラム修復に先行する時: どのようにうまくいったか?
- Authors: Yuxiao Chen, Jingzheng Wu, Xiang Ling, Changjiang Li, Zhiqing Rui,
Tianyue Luo, Yanjun Wu
- Abstract要約: オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。
GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎなかった。
本稿では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。
- 参考スコア(独自算出の注目度): 13.693311241492827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have demonstrated substantial
potential in addressing automatic program repair (APR) tasks. However, the
current evaluation of these models for APR tasks focuses solely on the limited
context of the single function or file where the bug is located, overlooking
the valuable information in the repository-level context. This paper
investigates the performance of popular LLMs in handling repository-level
repair tasks. We introduce RepoBugs, a new benchmark comprising 124 typical
repository-level bugs from open-source repositories. Preliminary experiments
using GPT3.5 based on the function where the error is located, reveal that the
repair rate on RepoBugs is only 22.58%, significantly diverging from the
performance of GPT3.5 on function-level bugs in related studies. This
underscores the importance of providing repository-level context when
addressing bugs at this level. However, the repository-level context offered by
the preliminary method often proves redundant and imprecise and easily exceeds
the prompt length limit of LLMs. To solve the problem, we propose a simple and
universal repository-level context extraction method (RLCE) designed to provide
more precise context for repository-level code repair tasks. Evaluations of
three mainstream LLMs show that RLCE significantly enhances the ability to
repair repository-level bugs. The improvement reaches a maximum of 160%
compared to the preliminary method. Additionally, we conduct a comprehensive
analysis of the effectiveness and limitations of RLCE, along with the capacity
of LLMs to address repository-level bugs, offering valuable insights for future
research.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は,自動プログラム修復 (APR) タスクに対処する大きな可能性を示している。
しかし、現在のAPRタスクに対するこれらのモデルの評価は、リポジトリレベルのコンテキストで貴重な情報を見越して、バグがある単一機能やファイルの限られたコンテキストにのみ焦点を当てている。
本稿では,レポジトリレベルの修復作業におけるLLMの性能について検討する。
オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。
GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎず,機能レベルのバグに対するGPT3.5の性能は著しく変化していることがわかった。
これは、このレベルでバグに対処する際にリポジトリレベルのコンテキストを提供することの重要性を強調する。
しかし、プリミティブメソッドによって提供されるリポジトリレベルのコンテキストは、しばしば冗長で不正確であり、容易にllmのプロンプト長の制限を超える。
そこで本研究では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。
3つの主要なLCMの評価は、RLCEがリポジトリレベルのバグを修復する能力を著しく向上させることを示している。
この改善は、予備的な方法と比較して最大で160%に達する。
さらに,レポジトリレベルのバグに対処するLLMの能力とともに,RLCEの有効性と限界を包括的に分析し,今後の研究に有用な洞察を提供する。
関連論文リスト
- Repository-level Code Translation Benchmark Targeting Rust [28.25765853736366]
Rustをターゲットにした375のタスクからなる、最初のリポジトリレベルのコード変換ベンチマークを紹介します。
このベンチマークを用いて、4つの最先端の大規模言語モデル(LLM)について検討する。
その結果,LCMは単純なタスクに比べて,リポジトリレベルでの翻訳性能が著しく低下(41.5%-56.2% Pass@1 drop of GPT-4)していることが判明した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - How Far Can We Go with Practical Function-Level Program Repair? [11.71750828464698]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。
補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文 参考訳(メタデータ) (2024-04-19T12:14:09Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。