Fugu-MT 論文翻訳(概要): Improving LLM-Based Fault Localization with External Memory and Project Context

論文の概要: Improving LLM-Based Fault Localization with External Memory and Project Context

arxiv url: http://arxiv.org/abs/2506.03585v1
Date: Wed, 04 Jun 2025 05:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.164538
Title: Improving LLM-Based Fault Localization with External Memory and Project Context
Title（参考訳）: 外部メモリとプロジェクトコンテキストによるLCMに基づく障害局所化の改善
Authors: Inseok Yeo, Duksan Ryu, Jongmoon Baik,
Abstract要約: 我々は,プロジェクト固有の知識を外部メモリ経由で統合することで,障害局所化を強化する新しいアプローチであるMemFLを紹介した。 MemFLはデバッグを3つの合理化ステップに単純化し、効率と精度を大幅に改善する。 GPT-4.1-miniのMemFLは既存の手法を24.4%上回り、バグにつき24.7秒と0.0094ドルしか必要としなかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fault localization, the process of identifying the software components responsible for failures, is essential but often time-consuming. Recent advances in Large Language Models (LLMs) have enabled fault localization without extensive defect datasets or model fine-tuning. However, existing LLM-based methods rely only on general LLM capabilities and lack integration of project-specific knowledge, resulting in limited effectiveness, especially for complex software. We introduce MemFL, a novel approach that enhances LLM-based fault localization by integrating project-specific knowledge via external memory. This memory includes static summaries of the project and dynamic, iterative debugging insights gathered from previous attempts. By leveraging external memory, MemFL simplifies debugging into three streamlined steps, significantly improving efficiency and accuracy. Iterative refinement through dynamic memory further enhances reasoning quality over time. Evaluated on the Defects4J benchmark, MemFL using GPT-4o-mini localized 12.7% more bugs than current LLM-based methods, achieving this improvement with just 21% of the execution time (17.4 seconds per bug) and 33% of the API cost (0.0033 dollars per bug). On complex projects, MemFL's advantage increased to 27.6%. Additionally, MemFL with GPT-4.1-mini outperformed existing methods by 24.4%, requiring only 24.7 seconds and 0.0094 dollars per bug. MemFL thus demonstrates significant improvements by effectively incorporating project-specific knowledge into LLM-based fault localization, delivering high accuracy with reduced time and cost.
Abstract（参考訳）: 失敗の原因となるソフトウェアコンポーネントを特定するプロセスであるフォールトローカライゼーションは不可欠だが、時間を要することが多い。大規模言語モデル(LLM)の最近の進歩は、広範な欠陥データセットやモデル微調整を伴わずに、フォールトローカライゼーションを可能にしている。しかし、既存の LLM ベースの手法は、一般的な LLM 機能のみに依存しており、プロジェクト固有の知識の統合が欠如しているため、特に複雑なソフトウェアにおいて、有効性は限られている。我々は,プロジェクト固有の知識を外部メモリ経由で統合することで,LLMに基づく障害局所化を強化する新しいアプローチであるMemFLを紹介する。このメモリには、プロジェクトの静的な要約と、以前の試みから集めた動的で反復的なデバッグの洞察が含まれている。外部メモリを活用することで、MemFLはデバッグを3つの合理化ステップに単純化し、効率と精度を大幅に改善する。動的メモリによる反復的な洗練は、時間とともに推論品質をさらに向上させる。 Defects4Jベンチマークに基づいて評価され、GPT-4o-miniを使用したMemFLは、現在のLCMベースのメソッドよりも12.7%多くのバグをローカライズし、実行時間の21%(17.4秒/バグ)とAPIコスト(0.0033ドル/バグ)でこの改善を実現した。複雑なプロジェクトでは、MemFLの利点は27.6%に増加した。さらに、GPT-4.1-miniのMemFLは既存のメソッドを24.4%上回り、バグにつき24.7秒と0.0094ドルしか必要としなかった。したがって、プロジェクト固有の知識をLLMベースのフォールトローカライゼーションに効果的に取り入れ、時間とコストを削減して高い精度を実現することで、MemFLは大幅に改善されている。

関連論文リスト

Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。 BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2025-02-19T18:59:32Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Software Fault Localization Based on Multi-objective Feature Fusion and Deep Learning [1.6724380665811045]
ソフトウェアのフォールトローカライゼーションは、機能の多様性が制限され、従来の手法の精度が低いため、依然として困難である。本稿では,多目的最適化を深層学習モデルに統合し,フォールトローカライゼーション(FL)の精度と効率を両立させる手法を提案する。
論文参考訳（メタデータ） (2024-11-26T04:37:32Z)
A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。 LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。 14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。 5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文参考訳（メタデータ） (2023-10-03T01:26:39Z)
Large Language Models in Fault Localisation [32.87044163543427]
本稿では,2つの最先端LCMであるChatGPT-3.5とChatGPT-4が断層局所化に与える影響について検討する。関数レベルのコンテキストでは、ChatGPT-4は既存のすべてのフォールトローカライゼーションメソッドより優れています。しかし、Defects4Jデータセットのコードコンテキストがクラスレベルに拡張されると、ChatGPT-4のパフォーマンスは大幅に低下する。
論文参考訳（メタデータ） (2023-08-29T13:07:27Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。