論文の概要: LLM-Driven Adaptive Source-Sink Identification and False Positive Mitigation for Static Analysis
- arxiv url: http://arxiv.org/abs/2511.04023v1
- Date: Thu, 06 Nov 2025 03:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.291689
- Title: LLM-Driven Adaptive Source-Sink Identification and False Positive Mitigation for Static Analysis
- Title(参考訳): 静的解析のためのLCM駆動適応型ソースシンク同定と偽陽性除去
- Authors: Shiyin Lin,
- Abstract要約: textscAdaTaintは、ソース/シンク仕様を適応的に推論し、ニューロシンボリック推論を通じて刺激的な警告をフィルタリングする。
textscAdaTaintは、プログラム事実と制約検証のモデル提案を基礎にして、適応性と決定性の両方を保証する。
結果はtextscAdaTaint がtextbf43.7% で偽陽性を減らし、textbf11.2% でリコールを改善することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static analysis is effective for discovering software vulnerabilities but notoriously suffers from incomplete source--sink specifications and excessive false positives (FPs). We present \textsc{AdaTaint}, an LLM-driven taint analysis framework that adaptively infers source/sink specifications and filters spurious alerts through neuro-symbolic reasoning. Unlike LLM-only detectors, \textsc{AdaTaint} grounds model suggestions in program facts and constraint validation, ensuring both adaptability and determinism. We evaluate \textsc{AdaTaint} on Juliet 1.3, SV-COMP-style C benchmarks, and three large real-world projects. Results show that \textsc{AdaTaint} reduces false positives by \textbf{43.7\%} on average and improves recall by \textbf{11.2\%} compared to state-of-the-art baselines (CodeQL, Joern, and LLM-only pipelines), while maintaining competitive runtime overhead. These findings demonstrate that combining LLM inference with symbolic validation offers a practical path toward more accurate and reliable static vulnerability analysis.
- Abstract(参考訳): 静的解析はソフトウェアの脆弱性を発見するのに有効だが、不完全なソース-シンク仕様と過剰な偽陽性(FP)に悩まされていることで悪名高い。
我々は,LLM駆動のテント分析フレームワークである‘textsc{AdaTaint} を,ソース/シンク仕様を適応的に推論し,ニューロシンボリック推論を通じて急激な警告をフィルタリングする。
LLMのみの検出器とは異なり、 \textsc{AdaTaint} はプログラム事実と制約検証のモデル提案を根拠として、適応性と決定性の両方を保証する。
Juliet 1.3上でのtextsc{AdaTaint},SV-COMPスタイルのCベンチマーク,および3つの大規模実世界のプロジェクトを評価する。
結果として、‘textsc{AdaTaint} は、平均で \textbf{43.7\%} で偽陽性を減らし、最先端のベースライン(CodeQL、Joern、LLMのみのパイプライン)と比較して \textbf{11.2\%} でリコールを改善するとともに、競合するランタイムオーバーヘッドを維持している。
これらの結果から,LLM推論とシンボル検証を組み合わせることで,より正確で信頼性の高い静的脆弱性解析への実践的な道筋が得られた。
関連論文リスト
- DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [54.231935013127206]
大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
論文 参考訳(メタデータ) (2025-10-19T21:05:17Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - ZeroFalse: Improving Precision in Static Analysis with LLMs [0.1759008116536278]
静的アプリケーションセキュリティテスト(SAST)ツールは、現代のソフトウェア開発に不可欠なツールだが、その採用は過度の偽陽性によって損なわれている。
ZeroFalseは,大規模言語モデル(LLM)と静的解析を統合して,カバレッジを維持しながら偽陽性を減らすフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T20:07:25Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。
LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。
LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
論文 参考訳(メタデータ) (2025-04-16T02:17:06Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。