論文の概要: Improving IR-based Bug Localization with Semantics-Driven Query Reduction
- arxiv url: http://arxiv.org/abs/2510.04468v1
- Date: Mon, 06 Oct 2025 03:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.672687
- Title: Improving IR-based Bug Localization with Semantics-Driven Query Reduction
- Title(参考訳): セマンティック型クエリーリダクションによるIRベースのバグローカライゼーションの改善
- Authors: Asif Mohammed Samir, Mohammad Masudur Rahman,
- Abstract要約: 我々は、バグレポートに対してソフトウェアバグをローカライズするための新しいアプローチであるIQLocを提案する。
我々は、トランスフォーマーベースのモデルのプログラム意味論的理解を活用して、コードの不確実性を推論する。
IQLocは、スタックトレースを持つバグレポートの91.67%、コード要素を含むバグレポートの72.73%、自然言語の記述のみを含むバグレポートの65.38%を改善する。
- 参考スコア(独自算出の注目度): 0.9298382208776371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite decades of research, software bug localization remains challenging due to heterogeneous content and inherent ambiguities in bug reports. Existing methods such as Information Retrieval (IR)-based approaches often attempt to match source documents to bug reports, overlooking the context and semantics of the source code. On the other hand, Large Language Models (LLM) (e.g., Transformer models) show promising results in understanding both texts and code. However, they have not been yet adapted well to localize software bugs against bug reports. They could be also data or resource-intensive. To bridge this gap, we propose, IQLoc, a novel bug localization approach that capitalizes on the strengths of both IR and LLM-based approaches. In particular, we leverage the program semantics understanding of transformer-based models to reason about the suspiciousness of code and reformulate queries during bug localization using Information Retrieval. To evaluate IQLoc, we refine the Bench4BL benchmark dataset and extend it by incorporating ~30% more recent bug reports, resulting in a benchmark containing ~7.5K bug reports. We evaluated IQLoc using three performance metrics and compare it against four baseline techniques. Experimental results demonstrate its superiority, achieving up to 58.52% and 60.59% in MAP, 61.49% and 64.58% in MRR, and 69.88% and 100.90% in HIT@K for the test bug reports with random and time-wise splits, respectively. Moreover, IQLoc improves MAP by 91.67% for bug reports with stack traces, 72.73% for those that include code elements, and 65.38% for those containing only descriptions in natural language. By integrating program semantic understanding into Information Retrieval, IQLoc mitigates several longstanding challenges of traditional IR-based approaches in bug localization.
- Abstract(参考訳): 何十年にもわたっての研究にもかかわらず、ソフトウェアバグのローカライゼーションは、異質なコンテンツとバグレポートの固有の曖昧さのために、依然として困難である。
情報検索(IR)ベースのアプローチのような既存の手法は、しばしばソースコードのコンテキストや意味を見渡して、ソース文書とバグレポートを一致させようとする。
一方、Large Language Models (LLM) (例: Transformer Model) は、テキストとコードの両方を理解する上で有望な結果を示している。
しかし、バグレポートに対するソフトウェアバグのローカライズには、まだ適していない。
データやリソース集約も可能だ。
このギャップを埋めるために、IRとLLMベースのアプローチの長所を生かした、新しいバグローカライゼーションアプローチであるIQLocを提案する。
特に、トランスフォーマーモデルに対するプログラム意味論的理解を利用して、コードの不審性を推論し、インフォメーション検索を用いてバグローカライゼーション中のクエリを再構成する。
IQLocを評価するために、Bench4BLベンチマークデータセットを洗練し、最新のバグレポートを30%以上取り入れて拡張しました。
IQLocを3つのパフォーマンス指標を用いて評価し、4つのベースライン技術と比較した。
実験の結果、MAPは58.52%、60.59%、MRRは61.49%、HIT@Kは69.88%、HIT@Kは100.90%に上った。
さらに、IQLocは、スタックトレースを持つバグレポートの91.67%、コード要素を含むバグレポートの72.73%、自然言語の記述のみを含むバグレポートの65.38%を改善している。
プログラムの意味理解をInformation Retrievalに統合することで、IQLocはバグローカライゼーションにおける従来のIRベースのアプローチにおける長年の課題を緩和する。
関連論文リスト
- Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation [0.0]
本稿では,命令微調整された大規模言語モデル(LLM)が,手軽で非構造化のバグレポートを,標準テンプレートに固執する高品質なバグレポートに自動変換できるかどうかを考察する。
我々は、ChatGPT-4oに対して3つのオープンソースの命令チューニングLDM(emphQwen 2.5, Mistral, Llama 3.2)を評価し、CTQRS、ROUGE、METEOR、SBERTなどの確立されたメトリクスの性能を測定した。
実験の結果,細調整Qwen 2.5はCTQRSスコアがtextbf77%であることがわかった。
論文 参考訳(メタデータ) (2025-04-26T05:15:53Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Improved IR-based Bug Localization with Intelligent Relevance Feedback [2.9312156642007294]
ソフトウェアバグは、開発とメンテナンスにおいて重大な課題となり、実践者は、バグを扱うのに約50%の時間を費やします。
既存の多くのテクニックでは、バグレポートとソースコードの間のテキストおよび意味的関連性を使用して、報告されたバグをローカライズするために、Information Retrieval (IR)を採用している。
本稿では,バグレポートとコードの関連性を評価することによって,コンテキストギャップに対処する新たなバグローカライゼーション手法であるBRaInを提案する。
論文 参考訳(メタデータ) (2025-01-17T20:29:38Z) - Enhancing IR-based Fault Localization using Large Language Models [5.032687557488094]
本稿では、プログラミングエンティティ、スタックトレース、自然言語テキストに基づいてバグレポートを分類することで、障害局所化(IRFL)を強化する。
クエリの不正確性に対処するため,LLmiRQ+と呼ばれるユーザと対話型クエリ再構成手法を導入する。
6,340件のバグ報告を含む46のプロジェクトの評価では、MRRは0.6770件、MAPは0.5118件であり、7つの最先端IRFL技術を上回っている。
論文 参考訳(メタデータ) (2024-12-04T22:47:51Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。
提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - The Forgotten Role of Search Queries in IR-based Bug Localization: An
Empirical Study [17.809196793565224]
本稿では、IRベースのバグローカライゼーションにおける最先端のクエリ選択手法について批判的に検討する。
遺伝的アルゴリズムに基づく手法を用いて,2,320のバグレポートから最適に近い検索クエリを構築する。
動作可能なインサイトの適用により,非最適クエリのパフォーマンスが27%~34%向上したことを示す。
論文 参考訳(メタデータ) (2021-08-11T17:37:50Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。