Fugu-MT 論文翻訳(概要): Minimizing False Positives in Static Bug Detection via LLM-Enhanced Path Feasibility Analysis

論文の概要: Minimizing False Positives in Static Bug Detection via LLM-Enhanced Path Feasibility Analysis

arxiv url: http://arxiv.org/abs/2506.10322v1
Date: Thu, 12 Jun 2025 03:11:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.549368
Title: Minimizing False Positives in Static Bug Detection via LLM-Enhanced Path Feasibility Analysis
Title（参考訳）: LLM強化パスファシビリティ分析による静的バグ検出における偽陽性の最小化
Authors: Xueying Du, Kai Yu, Chong Wang, Yi Zou, Wentai Deng, Zuoyu Ou, Xin Peng, Lingming Zhang, Yiling Lou,
Abstract要約: 大規模なバグ検出のための既存のアナライザは、しばしば偽陽性率が高い。これは主に、パス実現可能性検証におけるアナライザの能力の制限によるものだ。反復経路実現可能性分析フレームワーク LLM4PFA を提案する。
参考スコア（独自算出の注目度）: 19.798348922632314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Static bug analyzers play a crucial role in ensuring software quality. However, existing analyzers for bug detection in large codebases often suffer from high false positive rates. This is primarily due to the limited capabilities of analyzers in path feasibility validation with multiple conditional branches and complex data dependencies. While current LLM-based approaches attempt to address this issue, their effectiveness remains limited due to insufficient constraint cascade analysis and scalability challenges in large projects. To address this challenge, we propose an iterative path feasibility analysis framework LLM4PFA. By leveraging LLM agent based targeted constraint reasoning, and key context-aware analysis driven by agent planning, LLM4PFA effectively enhances complex inter-procedural path feasibility analysis for minimizing false positives in static bug detection. Evaluation results show that LLM4PFA precisely filters out 72% to 96% false positives reported during static bug detection, significantly outperforming all the baselines by 41.1% - 105.7% improvements; meanwhile LLM4PFA only misses 3 real bugs of 45 true positives.
Abstract（参考訳）: 静的バグアナライザは、ソフトウェアの品質を保証する上で重要な役割を果たす。しかし、大規模なコードベースにおけるバグ検出のための既存のアナライザは、しばしば偽陽性率が高い。これは主に、複数の条件分岐と複雑なデータ依存関係を持つパス実行可能性検証におけるアナライザの能力が制限されているためである。現在のLLMベースのアプローチではこの問題に対処しようとしているが、大きなプロジェクトでは制約のあるカスケード分析やスケーラビリティの問題のため、その有効性は限られている。この課題に対処するために,反復経路実現可能性分析フレームワーク LLM4PFA を提案する。 LLMエージェントをベースとした制約推論とエージェント計画によるキーコンテキスト認識分析を活用することにより,静的バグ検出における偽陽性の最小化のために,LLM4PFAは複雑な言語間パス実現可能性分析を効果的に強化する。評価の結果、LSM4PFAは静的バグ検出中に報告された偽陽性を72%から96%正確にフィルタリングし、すべてのベースラインを41.1%から105.7%改善した。

関連論文リスト

Towards Effective Complementary Security Analysis using Large Language Models [3.203446435054805]
セキュリティ分析における重要な課題は、静的アプリケーションセキュリティテスト(SAST)ツールによって生成される潜在的なセキュリティの弱点を手動で評価することである。本研究では,SAST 結果の評価を改善するために,Large Language Models (LLMs) を提案する。
論文参考訳（メタデータ） (2025-06-20T10:46:35Z)
The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。 LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。 LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
論文参考訳（メタデータ） (2025-04-16T02:17:06Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文参考訳（メタデータ） (2024-01-29T17:13:44Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models [18.026567399243]
大規模言語モデル(LLM)は静的解析に代わる有望な選択肢を提供する。本稿では,LLM支援静的解析のオープン空間を深く掘り下げる。 LLiftは,静的解析ツールとLLMの両方を併用した,完全に自動化されたフレームワークである。
論文参考訳（メタデータ） (2023-08-01T02:57:43Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。