論文の概要: LLMBisect: Breaking Barriers in Bug Bisection with A Comparative Analysis Pipeline
- arxiv url: http://arxiv.org/abs/2510.26086v1
- Date: Thu, 30 Oct 2025 02:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.634357
- Title: LLMBisect: Breaking Barriers in Bug Bisection with A Comparative Analysis Pipeline
- Title(参考訳): LLMBisect:BugBisectionにおけるバリアの破壊と解析パイプラインの比較
- Authors: Zheng Zhang, Haonan Li, Xingyu Li, Hang Zhang, Zhiyun Qian,
- Abstract要約: 大規模言語モデル(LLM)は、既存のソリューションの障壁を断ち切るために適切に配置されている。
LLMはテキストデータとコードの両方をパッチやコミットで理解している。
提案手法は最先端のソリューションよりも38%以上精度が向上する。
- 参考スコア(独自算出の注目度): 35.18683484280968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bug bisection has been an important security task that aims to understand the range of software versions impacted by a bug, i.e., identifying the commit that introduced the bug. However, traditional patch-based bisection methods are faced with several significant barriers: For example, they assume that the bug-inducing commit (BIC) and the patch commit modify the same functions, which is not always true. They often rely solely on code changes, while the commit message frequently contains a wealth of vulnerability-related information. They are also based on simple heuristics (e.g., assuming the BIC initializes lines deleted in the patch) and lack any logical analysis of the vulnerability. In this paper, we make the observation that Large Language Models (LLMs) are well-positioned to break the barriers of existing solutions, e.g., comprehend both textual data and code in patches and commits. Unlike previous BIC identification approaches, which yield poor results, we propose a comprehensive multi-stage pipeline that leverages LLMs to: (1) fully utilize patch information, (2) compare multiple candidate commits in context, and (3) progressively narrow down the candidates through a series of down-selection steps. In our evaluation, we demonstrate that our approach achieves significantly better accuracy than the state-of-the-art solution by more than 38\%. Our results further confirm that the comprehensive multi-stage pipeline is essential, as it improves accuracy by 60\% over a baseline LLM-based bisection method.
- Abstract(参考訳): バグバイセクションは、バグによって影響を受けるソフトウェアバージョンの範囲、すなわちバグを導入したコミットを特定することを目的とした、重要なセキュリティタスクである。
例えば、バグ誘発コミット(BIC)とパッチコミットが同じ関数を変更すると仮定するが、それは必ずしも正しくない。
コードの変更にのみ依存することが多いが、コミットメッセージには脆弱性に関連する情報が豊富に含まれていることが多い。
それらはまた、単純なヒューリスティック(例えば、BICがパッチで削除された行を初期化していると仮定する)に基づいており、脆弱性の論理的な分析を欠いている。
本稿では,Large Language Models (LLM) が既存のソリューション,例えばテキストデータとコードの両方をパッチやコミットで理解する障壁を突破するために適切に配置されていることを観察する。
1)パッチ情報を完全に活用し,(2)複数の候補コミットをコンテキストで比較し,(3) 一連のダウンセレクションステップによって候補を段階的に絞り込む,という,総合的な多段階パイプラインを提案する。
本評価では,本手法が最先端解よりも38.5%以上精度が高いことを示す。
さらに,LLM法をベースとした2分割法で精度を60倍に向上させるため,包括的多段パイプラインが不可欠であることが確認された。
関連論文リスト
- What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - LLM4SZZ: Enhancing SZZ Algorithm with Context-Enhanced Assessment on Large Language Models [10.525352489242398]
SZZアルゴリズムは、バグ発生コミットを特定する主要な手法である。
バグ予測や静的コード解析など、多くのソフトウェア工学研究の基盤となっている。
近年,従来のSZZアルゴリズムを強化するために,ディープラーニングに基づくSZZアルゴリズムが導入された。
論文 参考訳(メタデータ) (2025-04-02T06:40:57Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning [1.9854146581797698]
BLAZEは動的チャンキングとハードサンプル学習を採用するアプローチである。
プロジェクト横断と言語横断のバグローカライゼーションを強化するために、難しいバグケースを使用してGPTベースのモデルを微調整する。
BLAZEは、トップ1の精度で120%、平均平均精度(MAP)で144%、平均相互ランク(MRR)で100%上昇する。
論文 参考訳(メタデータ) (2024-07-24T20:44:36Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。