論文の概要: AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing
- arxiv url: http://arxiv.org/abs/2603.20637v1
- Date: Sat, 21 Mar 2026 04:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.008633
- Title: AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing
- Title(参考訳): AEGIS: CluesからVerdictsへ -- グラフィクスとメタ監査によるグラフガイドによる深層脆弱性推論
- Authors: Sen Fang, Weiyuan Ding, Zhezhen Cao, Zhou Yang, Bowen Xu,
- Abstract要約: 大きな言語モデル(LLM)は、脆弱性検出にますます採用されているが、その推論は基本的には正しくない。
AEGISは、未解決の投機から、クローズドな事実ベース上の法医学的検証へ、検出をシフトする新しいマルチエージェントフレームワークである。
これは、主要なベースラインと比較して偽陽性率を最大54.40%削減し、1サンプルあたりの平均コストはタスク固有のトレーニングなしで0.09ドルである。
- 参考スコア(独自算出の注目度): 9.271196825503417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly adopted for vulnerability detection, yet their reasoning remains fundamentally unsound. We identify a root cause shared by both major mitigation paradigms (agent-based debate and retrieval augmentation): reasoning in an ungrounded deliberative space that lacks a bounded, hypothesis-specific evidence base. Without such grounding, agents fabricate cross-function dependencies, and retrieval heuristics supply generic knowledge decoupled from the repository's data-flow topology. Consequently, the resulting conclusions are driven by rhetorical persuasiveness rather than verifiable facts. To ground this deliberation, we present AEGIS, a novel multi-agent framework that shifts detection from ungrounded speculation to forensic verification over a closed factual substrate. Guided by a "From Clue to Verdict" philosophy, AEGIS first identifies suspicious code anomalies (clues), then dynamically reconstructs per-variable dependency chains for each clue via on-demand slicing over a repository-level Code Property Graph. Within this closed evidence boundary, a Verifier Agent constructs competing dialectical arguments for and against exploitability, while an independent Audit Agent scrutinizes every claim against the trace, exercising veto power to prevent hallucinated verdicts. Evaluation on the rigorous PrimeVul dataset demonstrates that AEGIS establishes a new state-of-the-art, achieving 122 Pair-wise Correct Predictions. To our knowledge, this is the first approach to surpass 100 on this benchmark. It reduces the false positive rate by up to 54.40% compared to leading baselines, at an average cost of $0.09 per sample without any task-specific training.
- Abstract(参考訳): 大きな言語モデル(LLM)は、脆弱性検出にますます採用されているが、その推論は基本的には正しくない。
我々は、主要な緩和パラダイム(エージェントベースの議論と検索強化)の両方で共有される根本原因を同定する。
このような根拠がなければ、エージェントはクロスファンクショナルな依存関係を作成し、検索ヒューリスティックスはリポジトリのデータフロートポロジから切り離された一般的な知識を提供する。
その結果、結果の結論は、検証可能な事実ではなく、修辞的な説得性によって引き起こされる。
この議論を基礎として,未解決の推測から閉実基板上の法医学的検証にシフトする,新しいマルチエージェントフレームワークであるAEGISを提案する。
AEGISは"From Clue to Verdict"の哲学によって導かれ、まず不審なコード異常(キュー)を特定し、次にリポジトリレベルのコードプロパティグラフをオンデマンドスライシングすることで、各ヒントに対する変数ごとの依存性チェーンを動的に再構築する。
このクローズドエビデンスの境界の中で、検証エージェントは、搾取可能性に対する弁証的議論を構築し、一方独立した監査エージェントは、痕跡に対するすべての主張を精査し、幻覚された評決を防ぐために拒否権を行使する。
厳格なPrimeVulデータセットの評価は、AIGISが新たな最先端を確立し、ペアワイドの正確な予測を122回達成していることを示している。
私たちの知る限り、これはこのベンチマークで100を超える最初のアプローチです。
これは、主要なベースラインと比較して偽陽性率を最大54.40%削減し、1サンプルあたりの平均コストはタスク固有のトレーニングなしで0.09ドルである。
関連論文リスト
- Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation [5.191980417814362]
LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合する場合、排他的になる。
直腸型薬剤は、この体制では特に脆い。
本稿では,LLMが限定的な局所的エビデンスマイニングとラベリングを行うためのフレームワークであるEoGを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:27:19Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Reconstructing Trust Embeddings from Siamese Trust Scores: A Direct-Sum Approach with Fixed-Point Semantics [0.0]
本研究では,多くの分散セキュリティフレームワークが公開している1次元シームズ信頼スコアから高次元信頼埋め込みを再構築する逆問題について検討する。
合成ベンチマークのスイートは、ガウスノイズの存在下でも、回収された埋め込みはユークリッドとコサインの計測値によって測定されたデバイス間幾何学を保存することを確認している。
詳細な信頼スコアを公開することで、デバイスと評価モデルの両方に関する潜伏した行動情報が漏洩する可能性がある。
論文 参考訳(メタデータ) (2025-08-02T20:19:22Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Mining Fine-grained Semantics via Graph Neural Networks for
Evidence-based Fake News Detection [20.282527436527765]
本稿では,グラフベースのsEmantic sTructureマイニングフレームワークを提案する。
我々は、クレームとエビデンスをグラフ構造化データとしてモデル化し、長距離セマンティック依存関係をキャプチャします。
文脈意味情報を得た後、グラフ構造学習を行うことにより、情報冗長性を低減する。
論文 参考訳(メタデータ) (2022-01-18T11:28:36Z) - Multi-Expert Adversarial Attack Detection in Person Re-identification
Using Context Inconsistency [47.719533482898306]
本稿では,個人再識別(ReID)システムに対する悪意のある攻撃を検知するための,Multi-Expert Adversarial Detection(MEAAD)アプローチを提案する。
ReIDに対する最初の敵攻撃検出アプローチとして、MEAADは様々な敵攻撃を効果的に検出し、高いROC-AUC(97.5%以上)を達成する。
論文 参考訳(メタデータ) (2021-08-23T01:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。