論文の概要: Reformulate, Retrieve, Localize: Agents for Repository-Level Bug Localization
- arxiv url: http://arxiv.org/abs/2512.07022v1
- Date: Sun, 07 Dec 2025 22:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.644356
- Title: Reformulate, Retrieve, Localize: Agents for Repository-Level Bug Localization
- Title(参考訳): 再生・検索・ローカライズ:レポジトリレベルバグローカライゼーションのためのエージェント
- Authors: Genevieve Caumartin, Glaucia Melo,
- Abstract要約: 大規模なソフトウェアリポジトリでは、バグのローカライゼーションは依然として重要な課題ですが、時間がかかります。
大規模言語モデル(LLM)の最近の進歩は、クエリのリフォームによってバグのローカライゼーションを改善している。
本研究では,LLMを利用したエージェントが,軽量なクエリ再構成と要約によってファイルレベルのバグローカライズを改善する方法について検討する。
- 参考スコア(独自算出の注目度): 2.4063592468412276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bug localization remains a critical yet time-consuming challenge in large-scale software repositories. Traditional information retrieval-based bug localization (IRBL) methods rely on unchanged bug descriptions, which often contain noisy information, leading to poor retrieval accuracy. Recent advances in large language models (LLMs) have improved bug localization through query reformulation, yet the effect on agent performance remains unexplored. In this study, we investigate how an LLM-powered agent can improve file-level bug localization via lightweight query reformulation and summarization. We first employ an open-source, non-fine-tuned LLM to extract key information from bug reports, such as identifiers and code snippets, and reformulate queries pre-retrieval. Our agent then orchestrates BM25 retrieval using these preprocessed queries, automating localization workflow at scale. Using the best-performing query reformulation technique, our agent achieves 35% better ranking in first-file retrieval than our BM25 baseline and up to +22% file retrieval performance over SWE-agent.
- Abstract(参考訳): 大規模なソフトウェアリポジトリでは、バグのローカライゼーションは依然として重要な課題ですが、時間がかかります。
従来の情報検索に基づくバグローカライゼーション (IRBL) 手法は、しばしばノイズの多い情報を含む、変化のないバグ記述に依存しており、精度の低下につながる。
大規模言語モデル(LLM)の最近の進歩は、クエリのリフォームによってバグのローカライゼーションを改善しているが、エージェントのパフォーマンスへの影響は未解明のままである。
本研究では,LLMを利用したエージェントが,軽量なクエリ再構成と要約によってファイルレベルのバグローカライズを改善する方法について検討する。
まず、オープンソースの非微調整LCMを用いて、識別子やコードスニペットなどのバグレポートからキー情報を抽出し、クエリを事前検索する。
エージェントは、これらの前処理クエリを使用してBM25検索をオーケストレーションし、大規模なローカライゼーションワークフローを自動化する。
本手法により, BM25ベースラインよりも35%, SWEエージェントよりも22%, 検索性能が向上した。
関連論文リスト
- Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - Guiding Retrieval using LLM-based Listwise Rankers [15.3583908068962]
本稿では,リストワイズ設定をサポートする既存適応検索手法の適応性を提案する。
具体的には、提案アルゴリズムは、初期ランキングとフィードバック文書の両方から結果をマージする。
我々は,適応プロセスの最小化によるLLM推論の総数とオーバーヘッドを一定に保ちながら,nDCG@10を最大13.23%改善し,28.02%リコールできることを示した。
論文 参考訳(メタデータ) (2025-01-15T22:23:53Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Optimizing Query Generation for Enhanced Document Retrieval in RAG [53.10369742545479]
大規模言語モデル(LLM)は様々な言語タスクに優れるが、しばしば誤った情報を生成する。
Retrieval-Augmented Generation (RAG) は、正確な応答に文書検索を使用することによってこれを緩和することを目的としている。
論文 参考訳(メタデータ) (2024-07-17T05:50:32Z) - When Large Language Models Confront Repository-Level Automatic Program
Repair: How Well They Done? [13.693311241492827]
オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。
GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎなかった。
本稿では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。
論文 参考訳(メタデータ) (2024-03-01T11:07:41Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。