論文の概要: Veritas: A Semantically Grounded Agentic Framework for Memory Corruption Vulnerability Detection in Binaries
- arxiv url: http://arxiv.org/abs/2605.15097v1
- Date: Thu, 14 May 2026 17:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.974442
- Title: Veritas: A Semantically Grounded Agentic Framework for Memory Corruption Vulnerability Detection in Binaries
- Title(参考訳): Veritas: バイナリのメモリ破壊脆弱性検出のためのセマンティックグラウンドエージェントフレームワーク
- Authors: Xinran Zheng, Alfredo Pesoli, Marco Valleri, Suman Jana, Lorenzo Cavallaro,
- Abstract要約: We present Veritas, a semantically grounded framework for binary memory corruption vulnerability detection。
Veritas は RetDec-lifted LLVM IR に静的スライサ、デュアルビュー LLM 検出器、マルチエージェントバリデータを組み合わせた。
Veritasをモジュールパイプラインとして実装し、実世界のバイナリ脆弱性ケースのキュレートされたベンチマークで評価する。
- 参考スコア(独自算出の注目度): 14.42294978688412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting memory corruption vulnerabilities in stripped binaries requires recovering object semantics, interprocedural propagation, and feasible triggers from low-level, lossy representations. Recent LLM-based approaches improve code understanding, but reliable detection still requires grounding in memory-relevant semantics and runtime feasibility evidence. We present Veritas, a semantically grounded framework for binary memory corruption vulnerability detection. Veritas combines a static slicer over RetDec-lifted LLVM IR, a dual-view LLM detector that reasons step by step over grounded flows using decompiled C and selective LLVM IR, and a multi-agent validator that checks hypotheses against debugger-visible artifacts and runtime evidence. The slicer reconstructs value-flow relations from LLVM-IR facts, including def-use, calls, returns, globals, and pointer operations, and emits compact witness-backed flow objects. The detector uses these artifacts to reason about control flow, bounds, and object correspondence without rediscovering whole-binary propagation. The validator confirms or rejects candidates through guided debugging, breakpoint inspection, and memory-checking oracles. We implement Veritas as a modular pipeline and evaluate it on a curated benchmark of real-world binary vulnerability cases. Veritas achieves 90\% recall. For false-positive assessment, we exhaustively validate and manually verify 623 detector candidates and audit additional candidates from larger cases. The exhaustive subset produces no false positives, while the additional audit identifies two confirmed false positives. In a real-world application, Veritas discovered a previously unknown Apple vulnerability that was confirmed and assigned a CVE. These results support semantic grounding as an operational design principle for practical binary vulnerability detection.
- Abstract(参考訳): 取り除かれたバイナリにおけるメモリ破損の脆弱性の検出には、オブジェクトのセマンティクスの回復、相互プロシージャの伝搬、低レベルでロッキーな表現からの実行可能なトリガが必要である。
最近のLCMベースのアプローチでは、コード理解が改善されているが、信頼性の高い検出には、メモリ関連セマンティクスと実行可能性証拠の根拠が必要である。
We present Veritas, a semantically grounded framework for binary memory corruption vulnerability detection。
Veritasは、RetDecでリフトされたLLVM IR上の静的スライサと、デコンパイルされたCと選択されたLLVM IRを使用してグラウンデッドフローをステップスルーするデュアルビューLLLM検出器と、デバッガ可視のアーティファクトや実行時エビデンスに対する仮説をチェックするマルチエージェントバリデータを組み合わせたものだ。
スライサは、デフォールズ、コール、リターン、グローバル、ポインタ操作を含むLLVM-IRのファクトからバリューフロー関係を再構築し、コンパクトな目撃者支援フローオブジェクトを出力する。
検出器はこれらのアーティファクトを使用して、全体バイナリの伝播を再発見することなく、制御フロー、境界、およびオブジェクト対応を推論する。
バリケータは、ガイド付きデバッグ、ブレークポイントインスペクション、メモリチェックのオラクルを通じて、候補を確認または拒否する。
Veritasをモジュールパイプラインとして実装し、実世界のバイナリ脆弱性ケースのキュレートされたベンチマークで評価する。
Veritasは90%のリコールを達成した。
偽陽性評価では、623の検知候補を徹底的に検証し、手動で検証し、より大きな症例から追加候補を検査する。
徹底的なサブセットは偽陽性を発生しないが、追加の監査は2つの確認された偽陽性を識別する。
現実世界のアプリケーションで、Veritasは以前にも知られていなかったAppleの脆弱性を発見し、CVEを割り当てた。
これらの結果は、実用的なバイナリ脆弱性検出の操作設計原則としてセマンティックグラウンド化をサポートする。
関連論文リスト
- AsmRAG: LLM-Driven Malware Detection by Retrieving Functionally Similar Assembly Code [1.2183405753834562]
本稿では,AsmRAGについて紹介する。
このシステムは、LLM(Code-specialized Large Language Model)を使用してアセンブリ関数を分析し、それらをセマンティックな埋め込みに変換する。
そこで本研究では,バイナリ内の悪意論理の一次単位を分離し,検証可能な法医学的証拠を抽出し,回避の試みに抵抗する密度重み付きアンカー選択機構を提案する。
論文 参考訳(メタデータ) (2026-04-25T08:05:50Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。
我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。
従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文 参考訳(メタデータ) (2026-01-30T07:19:17Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。