論文の概要: Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis
- arxiv url: http://arxiv.org/abs/2604.10800v1
- Date: Sun, 12 Apr 2026 20:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.225763
- Title: Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis
- Title(参考訳): 修正前の検証:信頼できるクロスランゲージコード分析のためのエージェント実行基盤
- Authors: Jugal Gajjar,
- Abstract要約: ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learned classifiers deployed in agentic pipelines face a fundamental reliability problem: predictions are probabilistic inferences, not verified conclusions, and acting on them without grounding in observable evidence leads to compounding failures across downstream stages. Software vulnerability analysis makes this cost concrete and measurable. We address this through a unified cross-language vulnerability lifecycle framework built around three LLM-driven reasoning stages-hybrid structural-semantic detection, execution-grounded agentic validation, and validation-aware iterative repair-governed by a strict invariant: no repair action is taken without execution-based confirmation of exploitability. Cross-language generalization is achieved via a Universal Abstract Syntax Tree (uAST) normalizing Java, Python, and C++ into a shared structural schema, combined with a hybrid fusion of GraphSAGE and Qwen2.5-Coder-1.5B embeddings through learned two-way gating, whose per-sample weights provide intrinsic explainability at no additional cost. The framework achieves 89.84-92.02% intra-language detection accuracy and 74.43-80.12% zero-shot cross-language F1, resolving 69.74% of vulnerabilities end-to-end at a 12.27% total failure rate. Ablations establish necessity: removing uAST degrades cross-language F1 by 23.42%, while disabling validation increases unnecessary repairs by 131.7%. These results demonstrate that execution-grounded closed-loop reasoning is a principled and practically deployable mechanism for trustworthy LLM-driven agentic AI.
- Abstract(参考訳): 予測は確率論的推論であり、検証された結論ではなく、観測可能な証拠を根拠にすることなくそれらに作用することで、下流のステージに複合的な障害をもたらす。
ソフトウェアの脆弱性分析は、このコストを具体的かつ測定可能にします。
我々は,LSMをベースとした3つの段階的構造的セマンティックな推論,実行に基づくエージェント検証,厳密な不変量による検証的反復的修復を基本とした,言語横断的な脆弱性ライフサイクルフレームワークを通じてこの問題に対処する。
言語間の一般化は、Universal Abstract Syntax Tree (uAST)を通じて、Java、Python、C++を共有構造スキーマに正規化し、GraphSAGEとQwen2.5-Coder-1.5Bのハイブリッド統合と組み合わせて、学習された双方向ゲーティングを通じて、各サンプルの重みが固有の説明可能性を提供する。
このフレームワークは、89.84-92.02%の言語内検出精度と74.43-80.12%のゼロショット言語F1を実現し、69.74%の脆弱性を12.27%の総故障率で解決した。
uASTの除去は言語間F1の分解を23.42%減少させ、無効化は不必要な修復を131.7%増加させる。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
関連論文リスト
- Understanding NPM Malicious Package Detection: A Benchmark-Driven Empirical Analysis [10.599261033874884]
NPMエコシステムは、ソフトウェアサプライチェーン攻撃の主要なターゲットとなっている。
ベンチマークによるNPMマルウェア検出の実証分析を行う。
我々は、11の行動カテゴリと8の回避テクニックを付加した、6,420の悪意のある7,288の良性パッケージのデータセットを構築した。
論文 参考訳(メタデータ) (2026-03-29T07:04:31Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。
2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文 参考訳(メタデータ) (2026-02-17T20:20:33Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Formal Models and Convergence Analysis for Context-Aware Security Verification [0.0]
本稿では,ML強化適応システムに対する証明可能な保証を確立する,文脈認識型セキュリティ検証のための公式なフレームワークを提案する。
1)適応的検証が成功した場合のサンプル複雑性境界,(2)コンテキストリッチネスと検出能力に関する情報理論制限,(3)MLベースのペイロードジェネレータの収束保証。
論文 参考訳(メタデータ) (2025-10-14T12:21:36Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Probabilistic Soundness Guarantees in LLM Reasoning Chains [37.440902632372904]
ARES(Autoregressive Reasoning Entailment Stability)は、事前に検証された前提のみに基づいて、各推論ステップを評価する確率的フレームワークである。
ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-17T09:40:56Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。