論文の概要: Patch2Vuln: Agentic Reconstruction of Vulnerabilities from Linux Distribution Binary Patches
- arxiv url: http://arxiv.org/abs/2605.06601v1
- Date: Thu, 07 May 2026 17:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.036179
- Title: Patch2Vuln: Agentic Reconstruction of Vulnerabilities from Linux Distribution Binary Patches
- Title(参考訳): Patch2Vuln: Linuxディストリビューションバイナリパッチによる脆弱性のエージェント再構築
- Authors: Isaac David, Arthur Gervais,
- Abstract要約: 本稿では,ローカルバイナリ由来の証拠に制限された言語モデルエージェントが,Linuxディストリビューション更新のセキュリティ意味を再構築できるかどうかを問う。
Patch2Vulnは、古い/新しいELFペアを抽出し、GhidraとGhidriffと拡散し、機能の変更をランク付けし、候補ドシエを構築し、オフラインエージェントに予備監査を生成する、ローカルで再利用可能なパイプラインである。
Patch2Vuln on 25 Ubuntu.deb package pairs: 20のセキュリティアップデートペアと5つの負のコントロール。
- 参考スコア(独自算出の注目度): 3.93181912653522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security updates create a short but important window in which defenders and attackers can compare vulnerable and patched software. Yet in many operational settings, the most accessible artifacts are binary packages rather than source patches or advisory text. This paper asks whether a language-model agent, restricted to local binary-derived evidence, can reconstruct the security meaning of Linux distribution updates. Patch2Vuln is a local, resumable pipeline that extracts old/new ELF pairs, diffs them with Ghidra and Ghidriff, ranks changed functions, builds candidate dossiers, and asks an offline agent to produce a preliminary audit, bounded validation plan, and final audit. We evaluate Patch2Vuln on 25 Ubuntu `.deb` package pairs: 20 security-update pairs and five negative controls, all manually adjudicated against private source-patch and binary-function ground truth. The agent localizes a verified security-relevant patch function in 10 of 20 security pairs and assigns an accepted final root-cause class in 11 of 20. Oracle diagnostics show that six security pairs fail before model reasoning because the binary differ or ranker omits the right function, with one additional context-export miss. A separate bounded validation pass produces two target-level minimized behavioral old/new differentials, both for tcpdump, but no crash, timeout, sanitizer finding, or memory-corruption proof; all five negative controls are classified as unknown and produce no validation differentials. These results support agentic vulnerability reconstruction from binary patches as a useful research target while showing that binary-diff coverage and local behavioral validation remain the limiting components.
- Abstract(参考訳): セキュリティアップデートは、攻撃者とディフェンダーが脆弱性のあるソフトウェアとパッチされたソフトウェアを比較できる、短いが重要なウィンドウを作成する。
しかし、多くの運用環境では、最もアクセスしやすいアーティファクトは、ソースパッチやアドバイザリーテキストではなくバイナリパッケージである。
本稿では,ローカルバイナリ由来の証拠に制限された言語モデルエージェントが,Linuxディストリビューション更新のセキュリティ意味を再構築できるかどうかを問う。
Patch2Vulnは、古い/新しいELFペアを抽出し、GhidraとGhidriffと拡散し、機能の変更をランク付けし、候補ドシエを構築し、オフラインエージェントに予備監査、境界検証計画、最終監査を生成する、ローカルで再利用可能なパイプラインである。
We evaluate Patch2Vuln on 25 Ubuntu `。
パッケージペア: 20のセキュリティアップデートペアと5つの負のコントロール。
エージェントは、検証済みのセキュリティ関連パッチ機能を20のセキュリティペアのうち10にローカライズし、承認された最終根起クラスを20の11に割り当てる。
Oracleの診断によると、6つのセキュリティペアがモデル推論の前に失敗する。
別個の境界バリデーションパスは、tcpdumpの2つのターゲットレベルの最小の振る舞い/新しい差分を生成するが、クラッシュ、タイムアウト、消毒剤の発見、メモリ破損の証明は行わない。
これらの結果は、バイナリディファレンスカバレッジと局所的行動検証が制限コンポーネントであることを示すとともに、バイナリパッチからのエージェント的脆弱性再構築を有用な研究ターゲットとしてサポートしている。
関連論文リスト
- Synthesizing Multi-Agent Harnesses for Vulnerability Discovery [8.518689779459974]
LLMエージェントは、人間の監査官や自動ファジッターが何十年も見逃していた、真のセキュリティ脆弱性を見つけ始めている。
実際には、作業は複数のエージェントに分割され、ハーネスによってワイヤリングされる。どの役割が存在するかを修正するプログラム、どのように情報を渡すか、どのツールを呼び出すか、リトライがどのように調整されるかである。
AgentFlowは、エージェントの役割、プロンプト、ツール、通信トポロジ、調整プロトコルを共同でカバーする型付きグラフDSLで、両方の制限に対処する。
論文 参考訳(メタデータ) (2026-04-22T17:27:40Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - StriderSPD: Structure-Guided Joint Representation Learning for Binary Security Patch Detection [22.120085662911194]
セキュリティパッチ検出(SPD)は、ソフトウェア資産を保護する。
ほとんどのSPD研究はオープンソースソフトウェア(OSS)をターゲットにしているが、実際のソフトウェアの大部分はクローズドソースである。
グラフブランチを大きな言語モデルに統合するバイナリコードのフレームワークである textbftextitStriderSPD を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:55:29Z) - What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。
パッチの有無テストは 脆弱性を検出する効果的な方法の1つです
パッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:35:37Z) - BinGo: Identifying Security Patches in Binary Code with Graph
Representation Learning [19.22004583230725]
バイナリコードに対する新しいセキュリティパッチ検出システムであるBinGoを提案する。
BinGoは、パッチデータ前処理、グラフ抽出、埋め込み生成、グラフ表現学習の4つのフェーズで構成されている。
実験の結果、BinGoは隣り合う2つのバイナリコードのセキュリティパッチを80.77%の精度で識別できることがわかった。
論文 参考訳(メタデータ) (2023-12-13T06:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。