論文の概要: QASecClaw: A Multi-Agent LLM Approach for False Positive Reduction in Static Application Security Testing
- arxiv url: http://arxiv.org/abs/2605.01885v1
- Date: Sun, 03 May 2026 14:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.980283
- Title: QASecClaw: A Multi-Agent LLM Approach for False Positive Reduction in Static Application Security Testing
- Title(参考訳): QASecClaw: 静的アプリケーションセキュリティテストにおける偽陽性削減のためのマルチエージェントLLMアプローチ
- Authors: Mohd Ruhul Ameen, Md Takrim Ul Alam, Akif Islam,
- Abstract要約: 静的アプリケーションセキュリティテストと,大規模言語モデルに基づくコンテキストコードレビューのコーディングを組み合わせたマルチエージェントアプローチであるQASecClawを提案する。
SASTエンジンが最初に脆弱性を報告し、Large Language ModelベースのSAST Filter Agentがソースコードコンテキストで各発見をレビューし、それが真正か偽正かを決定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static Application Security Testing tools help developers find security vulnerabilities before release, but they often produce many false positives. This increases manual review effort, reduces developer trust, and may cause real vulnerabilities to be ignored among noisy reports. We present QASecClaw, a multi agent approach that combines conventional Static Application Security Testing with coding specialized Large Language Model based contextual code review. A SAST engine first reports candidate vulnerabilities, and a Large Language Model based SAST Filter Agent then reviews each finding with source code context to decide whether it is likely to be a true positive or a false positive. QASecClaw is coordinated by a Mission Orchestrator and includes specialized agents for test planning, security validation, evidence correlation, filtering, and reporting. We evaluate QASecClaw on OWASP Benchmark v1.2, which contains 2,740 Java test cases across 11 Common Weakness Enumeration categories with ground truth labels. QASecClaw achieves an F1 score of 90.93 percent, compared with 78.39 percent for standalone Semgrep. The improvement is mainly driven by an 88.6 percent reduction in false positives, from 560 to 64, with only a 3.1 percent reduction in recall. These results show that Large Language Model augmented multi agent verification can make Static Application Security Testing output more accurate, useful, and trustworthy.
- Abstract(参考訳): 静的アプリケーションセキュリティテストツールは、開発者がリリース前にセキュリティ上の脆弱性を見つけるのに役立つが、しばしば多くの偽陽性を生み出す。
これにより、手動によるレビュー作業が増加し、開発者の信頼が低下し、ノイズの多いレポートの中で本当の脆弱性が無視される可能性がある。
本稿では,従来の静的アプリケーションセキュリティテストと,大規模言語モデルに基づくコンテキストコードレビューのコーディングを組み合わせたマルチエージェントアプローチであるQASecClawを提案する。
SASTエンジンが最初に脆弱性を報告し、Large Language ModelベースのSAST Filter Agentがソースコードコンテキストで各発見をレビューし、それが真正か偽正かを決定する。
QASecClawはMission Orchestratorによって調整され、テスト計画、セキュリティ検証、エビデンス相関、フィルタリング、レポートのための特別なエージェントを含んでいる。
我々はOWASP Benchmark v1.2のQASecClawを評価し、11の共通弱度列挙カテゴリに2,740のJavaテストケースと基底真理ラベルを含む。
QASecClawのF1スコアは90.93パーセント、スタンドアローンのSemgrepは78.39パーセントである。
この改善は、主に88.6%の偽陽性が560から64に減少し、リコール率はわずか3.1%に留まった。
これらの結果から,大規模言語モデルの拡張によるマルチエージェント検証により,静的アプリケーションセキュリティテストの出力がより正確で,有用で,信頼性の高いものになることが示唆された。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。
調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。
調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文 参考訳(メタデータ) (2026-03-19T10:40:27Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。
我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文 参考訳(メタデータ) (2025-03-12T14:30:05Z) - Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection [9.269926508651091]
大規模言語モデル(LLM)は、脆弱性検出などの安全クリティカルなコードタスクに制限があることを示している。
本稿では,脆弱性の自然言語命令を,対照的な連鎖推論と統合する戦略を提案する。
本研究は,静的アナライザの厳格な手作りルールに代えて,セキュリティ対応のプロンプト技術が有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T18:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。