Fugu-MT 論文翻訳(概要): When Large Language Models Confront Repository-Level Automatic Program Repair: How Well They Done?

論文の概要: When Large Language Models Confront Repository-Level Automatic Program Repair: How Well They Done?

arxiv url: http://arxiv.org/abs/2403.00448v1
Date: Fri, 1 Mar 2024 11:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 17:38:53.411242
Title: When Large Language Models Confront Repository-Level Automatic Program Repair: How Well They Done?
Title（参考訳）: 大規模言語モデルがレポジトリレベルの自動プログラム修復に先行する時: どのようにうまくいったか?
Authors: Yuxiao Chen, Jingzheng Wu, Xiang Ling, Changjiang Li, Zhiqing Rui, Tianyue Luo, Yanjun Wu
Abstract要約: オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。 GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎなかった。本稿では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。
参考スコア（独自算出の注目度）: 13.693311241492827
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, large language models (LLMs) have demonstrated substantial potential in addressing automatic program repair (APR) tasks. However, the current evaluation of these models for APR tasks focuses solely on the limited context of the single function or file where the bug is located, overlooking the valuable information in the repository-level context. This paper investigates the performance of popular LLMs in handling repository-level repair tasks. We introduce RepoBugs, a new benchmark comprising 124 typical repository-level bugs from open-source repositories. Preliminary experiments using GPT3.5 based on the function where the error is located, reveal that the repair rate on RepoBugs is only 22.58%, significantly diverging from the performance of GPT3.5 on function-level bugs in related studies. This underscores the importance of providing repository-level context when addressing bugs at this level. However, the repository-level context offered by the preliminary method often proves redundant and imprecise and easily exceeds the prompt length limit of LLMs. To solve the problem, we propose a simple and universal repository-level context extraction method (RLCE) designed to provide more precise context for repository-level code repair tasks. Evaluations of three mainstream LLMs show that RLCE significantly enhances the ability to repair repository-level bugs. The improvement reaches a maximum of 160% compared to the preliminary method. Additionally, we conduct a comprehensive analysis of the effectiveness and limitations of RLCE, along with the capacity of LLMs to address repository-level bugs, offering valuable insights for future research.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) は,自動プログラム修復 (APR) タスクに対処する大きな可能性を示している。しかし、現在のAPRタスクに対するこれらのモデルの評価は、リポジトリレベルのコンテキストで貴重な情報を見越して、バグがある単一機能やファイルの限られたコンテキストにのみ焦点を当てている。本稿では,レポジトリレベルの修復作業におけるLLMの性能について検討する。オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。 GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎず,機能レベルのバグに対するGPT3.5の性能は著しく変化していることがわかった。これは、このレベルでバグに対処する際にリポジトリレベルのコンテキストを提供することの重要性を強調する。しかし、プリミティブメソッドによって提供されるリポジトリレベルのコンテキストは、しばしば冗長で不正確であり、容易にllmのプロンプト長の制限を超える。そこで本研究では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。 3つの主要なLCMの評価は、RLCEがリポジトリレベルのバグを修復する能力を著しく向上させることを示している。この改善は、予備的な方法と比較して最大で160%に達する。さらに,レポジトリレベルのバグに対処するLLMの能力とともに,RLCEの有効性と限界を包括的に分析し,今後の研究に有用な洞察を提供する。

関連論文リスト

Bug Fixing with Broader Context: Enhancing LLM-Based Program Repair via Layered Knowledge Injection [5.287304201523224]
現実世界のプロジェクトでは、開発者はそのようなバグを解決するために、ローカルコード以外のより広いリポジトリとプロジェクトレベルのコンテキストに依存することが多い。本稿では,LLMを構造化コンテキストで漸進的に拡張する階層型知識注入フレームワークを提案する。このフレームワークをBugsInPyの314のバグのデータセットで評価し、6つのバグタイプにわたる修正率を分析した。
論文参考訳（メタデータ） (2025-06-30T16:19:38Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models [4.757323827658957]
自動プログラム修正は、開発者がソフトウェアをメンテナンスするのを助けるバグ修正を提案する。近年の研究では、LLMを修復に利用できることが示されている。オープンモデル (Llama 3.3, Qwen 2.5 Coder, DeepSeek R1 (dist.) など) やクローズドモデル (o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash など) を含む,最新の13モデルの多種多様なセットを評価した。
論文参考訳（メタデータ） (2025-06-03T18:15:14Z)
Enhancing Repository-Level Software Repair via Repository-Aware Knowledge Graphs [8.467850621024672]
リポジトリレベルのソフトウェア修復は、問題記述とコードパッチの間のセマンティックギャップを埋める際の課題に直面します。既存のアプローチは、主に大きな言語モデル(LLM)に依存しており、意味的曖昧さ、構造的コンテキストの理解の制限、推論能力の不足に悩まされている。本稿では,リポジトリのアーティファクト(課題とプル要求)とエンティティを正確にリンクする新しいリポジトリ対応知識グラフ(KG)を提案する。
論文参考訳（メタデータ） (2025-03-27T17:21:47Z)
Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。 BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2025-02-19T18:59:32Z)
RepoAudit: An Autonomous LLM-Agent for Repository-Level Code Auditing [8.846583362353169]
この作業では、レポジトリレベルのコード監査を正確かつ効率的なものにするために、自律的なLLMエージェントであるRepoAuditを導入している。 RepoAuditは、必要に応じてコードリポジトリを調べ、個々の関数で異なる実行可能なプログラムパスに沿ってデータフローの事実を分析する。我々の実験によると、RepoAuditは15の現実世界のシステムで38の真のバグを発見し、プロジェクト平均で0.44時間と2.54ドルを消費している。
論文参考訳（メタデータ） (2025-01-30T05:56:30Z)
Repository-level Code Translation Benchmark Targeting Rust [28.25765853736366]
Rustをターゲットにした375のタスクからなる、最初のリポジトリレベルのコード変換ベンチマークを紹介します。このベンチマークを用いて、4つの最先端の大規模言語モデル(LLM)について検討する。その結果,LCMは単純なタスクに比べて,リポジトリレベルでの翻訳性能が著しく低下(41.5%-56.2% Pass@1 drop of GPT-4)していることが判明した。
論文参考訳（メタデータ） (2024-11-21T10:00:52Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Investigating the Transferability of Code Repair for Low-Resource Programming Languages [57.62712191540067]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。近年の作業は、連鎖推論や蒸留といった現代的な技術を統合することで、コード修復のプロセスを強化している。高低資源言語と低低資源言語の両方でコード修復を蒸留する利点について検討する。
論文参考訳（メタデータ） (2024-06-21T05:05:39Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。 RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。 Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文参考訳（メタデータ） (2024-04-22T03:52:54Z)
How Far Can We Go with Practical Function-Level Program Repair? [11.71750828464698]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文参考訳（メタデータ） (2024-04-19T12:14:09Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文参考訳（メタデータ） (2023-12-13T18:58:04Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。