論文の概要: Enhancing LLM-based Fault Localization with a Functionality-Aware Retrieval-Augmented Generation Framework
- arxiv url: http://arxiv.org/abs/2509.20552v1
- Date: Wed, 24 Sep 2025 20:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.58377
- Title: Enhancing LLM-based Fault Localization with a Functionality-Aware Retrieval-Augmented Generation Framework
- Title(参考訳): 関数性を考慮した検索型生成フレームワークによるLLMに基づくフォールトローカライゼーションの強化
- Authors: Xinyu Shi, Zhenhao Li, An Ran Chen,
- Abstract要約: FaR-Locは、メソッドレベルの障害ローカライゼーションを強化するフレームワークである。
FaR-Locは、LLM機能抽出、Semantic Retrieval、LLM再ランクの3つの重要なコンポーネントで構成されている。
広く使われているDefects4Jベンチマーク実験により、FaR-Locは最先端のLCMベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 14.287359838639608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fault localization (FL) is a critical but time-consuming task in software debugging, aiming to identify faulty code elements. While recent advances in large language models (LLMs) have shown promise for FL, they often struggle with complex systems due to the lack of project-specific knowledge and the difficulty of navigating large projects. To address these limitations, we propose FaR-Loc, a novel framework that enhances method-level FL by integrating LLMs with retrieval-augmented generation (RAG). FaR-Loc consists of three key components: LLM Functionality Extraction, Semantic Dense Retrieval, and LLM Re-ranking. First, given a failed test and its associated stack trace, the LLM Functionality Extraction module generates a concise natural language description that captures the failing behavior. Next, the Semantic Dense Retrieval component leverages a pre-trained code-understanding encoder to embed both the functionality description (natural language) and the covered methods (code) into a shared semantic space, enabling the retrieval of methods with similar functional behavior. Finally, the LLM Re-ranking module reorders the retrieved methods based on their contextual relevance. Our experiments on the widely used Defects4J benchmark show that FaR-Loc outperforms state-of-the-art LLM-based baselines SoapFL and AutoFL, by 14.6% and 9.1% in Top-1 accuracy, by 19.2% and 22.1% in Top-5 accuracy, respectively. It also surpasses all learning-based and spectrum-based baselines across all Top-N metrics without requiring re-training. Furthermore, we find that pre-trained code embedding models that incorporate code structure, such as UniXcoder, can significantly improve fault localization performance by up to 49.0% in Top-1 accuracy. Finally, we conduct a case study to illustrate the effectiveness of FaR-Loc and to provide insights for its practical application.
- Abstract(参考訳): フォールトローカライゼーション(FL)は、ソフトウェアデバッグにおいて重要ではあるが時間を要するタスクであり、欠陥のあるコード要素を特定することを目的としている。
近年の大規模言語モデル(LLM)の進歩はFLへの期待を示しているが、プロジェクト固有の知識の欠如と大規模プロジェクトのナビゲートが難しいため、複雑なシステムに苦しむことが多い。
これらの制約に対処するために,LLMとRAGを統合することにより,メソッドレベルのFLを向上する新しいフレームワークであるFaR-Locを提案する。
FaR-Locは、LLM機能抽出、Semantic Dense Retrieval、LLMリグレードの3つの重要なコンポーネントで構成されている。
まず、失敗したテストとそのスタックトレースが与えられた場合、LLM関数性抽出モジュールは、失敗する振る舞いをキャプチャする簡潔な自然言語記述を生成する。
次に、Semantic Dense Retrievalコンポーネントは、トレーニング済みのコード理解エンコーダを利用して、機能記述(自然言語)とカバーされたメソッド(コード)の両方を共有セマンティック空間に埋め込む。
最後に、LLMリグレードモジュールは、そのコンテキスト関連性に基づいて、検索したメソッドを再順序付けする。
The wide use on the Defects4J benchmark showed that FaR-Loc improves state-of-the-art LLM-based baselines SoapFL and AutoFL, by 14.6% and 9.1% in Top-1 accuracy, by 19.2% and 22.1% in Top-5 accuracy。
また、学習ベースのベースラインとスペクトルベースのベースラインを、Top-Nのメトリクスすべてで上回り、再トレーニングは不要だ。
さらに、UniXcoderのようなコード構造を組み込んだ事前学習されたコード埋め込みモデルでは、Top-1精度で最大49.0%のフォールトローカライゼーション性能が大幅に向上することが判明した。
最後に,FaR-Locの有効性を説明するケーススタディと,その実用化に向けた洞察を提供する。
関連論文リスト
- Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。
提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。
実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文 参考訳(メタデータ) (2025-05-29T19:06:14Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。
大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。
LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。
14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - MORepair: Teaching LLMs to Repair Code via Multi-Objective Fine-tuning [25.03477973238162]
プログラム修復タスクに対するLLM(Large Language Model)の微調整アプローチは、コード変更の背後にあるロジックを推論する必要性を見落としている。
サイズやアーキテクチャの異なる4つのオープンソース LLM にMOobjective を適用する。
我々の微調整戦略は、最先端のアプローチよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-19T05:36:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。