論文の概要: QRS: A Rule-Synthesizing Neuro-Symbolic Triad for Autonomous Vulnerability Discovery
- arxiv url: http://arxiv.org/abs/2602.09774v1
- Date: Tue, 10 Feb 2026 13:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.548336
- Title: QRS: A Rule-Synthesizing Neuro-Symbolic Triad for Autonomous Vulnerability Discovery
- Title(参考訳): QRS:自律的脆弱性発見のためのルール合成型ニューロシンボリックトライアド
- Authors: George Tsigkourakos, Constantinos Patsakis,
- Abstract要約: 我々はQRS(Query, Review, Sanitize)という,このパラダイムを逆転するニューロシンボリックなフレームワークを紹介します。
静的ルールから結果をフィルタリングする代わりに、QRSは構造化スキーマ定義といくつかの例からCodeQLクエリを生成する3つの自律エージェントを使用して、セマンティック推論と自動エクスプロイト合成を通じて検証する。
人気のPyPIライブラリの20の歴史的CVEでは、QRS 90.6%の精度が検出された。
- 参考スコア(独自算出の注目度): 3.52359746858894
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Static Application Security Testing (SAST) tools are integral to modern DevSecOps pipelines, yet tools like CodeQL, Semgrep, and SonarQube remain fundamentally constrained: they require expert-crafted queries, generate excessive false positives, and detect only predefined vulnerability patterns. Recent work has explored augmenting SAST with Large Language Models (LLMs), but these approaches typically use LLMs to triage existing tool outputs rather than to reason about vulnerability semantics directly. We introduce QRS (Query, Review, Sanitize), a neuro-symbolic framework that inverts this paradigm. Rather than filtering results from static rules, QRS employs three autonomous agents that generate CodeQL queries from a structured schema definition and few-shot examples, then validate findings through semantic reasoning and automated exploit synthesis. This architecture enables QRS to discover vulnerability classes beyond predefined patterns while substantially reducing false positives. We evaluate QRS on full Python packages rather than isolated snippets. In 20 historical CVEs in popular PyPI libraries, QRS achieves 90.6% detection accuracy. Applied to the 100 most-downloaded PyPI packages, QRS identified 39 medium-to-high-severity vulnerabilities, 5 of which were assigned new CVEs, 5 received documentation updates, while the remaining 29 were independently discovered by concurrent researchers, validating both the severity and discoverability of these findings. QRS accomplishes this with low time overhead and manageable token costs, demonstrating that LLM-driven query synthesis and code review can complement manually curated rule sets and uncover vulnerability patterns that evade existing industry tools.
- Abstract(参考訳): 静的アプリケーションセキュリティテスト(SAST)ツールは、現代のDevSecOpsパイプラインに不可欠なものだが、CodeQL、Semgrep、SonarQubeといったツールは、基本的に制約されている。
最近の研究では、LLM(Large Language Models)によるSASTの拡張について検討されているが、これらのアプローチは通常、脆弱性のセマンティクスを直接考えるのではなく、LLMを使用して既存のツール出力をトリガする。
我々はQRS(Query, Review, Sanitize)という,このパラダイムを逆転するニューロシンボリックなフレームワークを紹介します。
静的ルールから結果をフィルタリングする代わりに、QRSでは、構造化スキーマ定義と少数の例からCodeQLクエリを生成する3つの自律エージェントを使用して、セマンティック推論と自動エクスプロイト合成を通じて結果を検証する。
このアーキテクチャにより、QRSは事前定義されたパターンを超えて脆弱性クラスを発見でき、偽陽性を大幅に低減できる。
分離されたスニペットではなく,完全なPythonパッケージ上でQRSを評価する。
人気のPyPIライブラリの20の歴史的CVEでは、QRSは90.6%の精度で検出できる。
100個の最もダウンロードされたPyPIパッケージに適用すると、QRSは39個の中~高重度脆弱性を特定し、そのうち5つは新たなCVEが割り当てられ、5つはドキュメントが更新され、残りの29は同時研究者によって独立に発見され、これらの発見の重大性と発見可能性の両方が検証された。
QRSは、低時間オーバーヘッドと管理可能なトークンコストでこれを達成し、LCM駆動のクエリ合成とコードレビューが、手作業でキュレートされたルールセットを補完し、既存の業界ツールを回避する脆弱性パターンを明らかにすることを実証している。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - Multi-Agent Taint Specification Extraction for Vulnerability Detection [49.27772068704498]
コンテナ分析を使用した静的アプリケーションセキュリティテスト(SAST)ツールは、高品質な脆弱性検出結果を提供するものとして広く見なされている。
本稿では,Large Language Models (LLM) のセマンティック理解と従来の静的プログラム解析を戦略的に組み合わせたマルチエージェントシステムであるSemTaintを提案する。
私たちは、SemTaintを最先端のSASTツールであるCodeQLと統合し、これまでCodeQLで検出できなかった162の脆弱性の106を検出して、その効果を実証しています。
論文 参考訳(メタデータ) (2026-01-15T21:31:51Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - QLCoder: A Query Synthesizer For Static Analysis of Security Vulnerabilities [18.588864089739598]
QLCoderは、強力な静的分析エンジンであるCodeQLでクエリを自動的に合成するエージェントフレームワークである。
QLCodeは、独自のMPPインターフェースを使用して推論を制約しながら、実行フィードバック付きの合成ループにLLMを組み込む。
111のJavaプロジェクトにわたる176の既存のCVE上でQLCodeを評価します。
論文 参考訳(メタデータ) (2025-11-11T17:06:04Z) - What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - Automated Static Vulnerability Detection via a Holistic Neuro-symbolic Approach [17.872674648772616]
本稿では,LLM(Large Language Model)と古典的脆弱性チェッカーの相補的長所を組み合わせた,新しいニューロシンボリック・フレームワークであるMoCQを紹介する。
MoCQは、専門家が開発したクエリと同等の精度とリコールを実現している。
MoCQはまた、専門家が見逃した46の新しい脆弱性パターンを明らかにした。
論文 参考訳(メタデータ) (2025-04-22T17:33:53Z) - EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities [46.34031902647788]
本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。
セキュリティ脆弱性を発見して悪用するエージェントの能力を改善するために、新しいツールとインターフェースを導入します。
390 CTF課題に関する実証分析により,これらの新しいツールとインターフェースがエージェントの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-24T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。