論文の概要: Patch-to-PoC: A Systematic Study of Agentic LLM Systems for Linux Kernel N-Day Reproduction
- arxiv url: http://arxiv.org/abs/2602.07287v1
- Date: Sat, 07 Feb 2026 00:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.553468
- Title: Patch-to-PoC: A Systematic Study of Agentic LLM Systems for Linux Kernel N-Day Reproduction
- Title(参考訳): Patch-to-PoC:LinuxカーネルN日再現のためのエージェントLLMシステムの体系的研究
- Authors: Juefei Pu, Xingyu Li, Haonan Li, Zhengchuan Liang, Jonathan Cox, Yifan Wu, Kareem Shehada, Arrdya Srivastav, Zhiyun Qian,
- Abstract要約: LLMをベースとしたLinuxカーネルの脆弱性再現に関する大規模な研究を行った。
K-Reproはカーネルセキュリティパッチを入力として使用し、LinuxカーネルのN日脆弱性のエンドツーエンドバグ再現を自動化する。
以上の結果から,K-Reproは実時間と金銭的コストで50%以上の症例を再現できるPoCを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 27.460244103362935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous large language model (LLM) based systems have recently shown promising results across a range of cybersecurity tasks. However, there is no systematic study on their effectiveness in autonomously reproducing Linux kernel vulnerabilities with concrete proofs-of-concept (PoCs). Owing to the size, complexity, and low-level nature of the Linux kernel, such tasks are widely regarded as particularly challenging for current LLM-based approaches. In this paper, we present the first large-scale study of LLM-based Linux kernel vulnerability reproduction. For this purpose, we develop K-Repro, an LLM-based agentic system equipped with controlled code-browsing, virtual machine management, interaction, and debugging capabilities. Using kernel security patches as input, K-Repro automates end-to-end bug reproduction of N-day vulnerabilities in the Linux kernel. On a dataset of 100 real-world exploitable Linux kernel vulnerabilities collected from KernelCTF, our results show that K-Repro can generate PoCs that reproduce over 50\% of the cases with practical time and monetary cost. Beyond aggregate success rates, we perform an extensive study of effectiveness, efficiency, stability, and impact factors to explain when agentic reproduction succeeds, where it fails, and which components drive performance. These findings provide actionable guidance for building more reliable autonomous security agents and for assessing real-world N-day risk from both offensive and defensive perspectives.
- Abstract(参考訳): 自律型大規模言語モデル(LLM)ベースのシステムは、最近、様々なサイバーセキュリティタスクにおいて有望な結果を示している。
しかし、概念実証(PoC)によるLinuxカーネルの脆弱性を自律的に再現する効果について、体系的な研究は行われていない。
Linuxカーネルのサイズ、複雑さ、低レベルの性質から、このようなタスクは現在のLLMベースのアプローチでは特に難しいと考えられている。
本稿では,LLMをベースとしたLinuxカーネルの脆弱性の再現について,大規模な研究を行った。
そこで我々は,制御されたコードブラウジング,仮想マシン管理,インタラクション,デバッグ機能を備えたLCMベースのエージェントシステムであるK-Reproを開発した。
K-Reproはカーネルセキュリティパッチを入力として使用し、LinuxカーネルのN日脆弱性のエンドツーエンドバグ再現を自動化する。
KernelCTFから収集した実世界の悪用可能なLinuxカーネルの脆弱性100件のデータセットから、K-Reproは、実用的な時間と金銭的コストでケースの50%以上を再現できるPoCを生成できることを示した。
総合的な成功率以外にも、エージェント再生がいつ成功し、どこで失敗し、どのコンポーネントがパフォーマンスを駆動するかを説明するために、有効性、効率、安定性、影響要因を幅広く研究する。
これらの知見は、より信頼性の高い自律型セキュリティエージェントの構築と、攻撃的および防衛的視点の両方から現実世界のN日リスクを評価するための実用的なガイダンスを提供する。
関連論文リスト
- Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units [39.846358001824996]
我々は,NPUカーネル開発のための世代評価統合フレームワークAscend KernelGenを提案する。
本稿では,実世界のカーネル実装から派生したチェーン・オブ・シント推論を取り入れた高品質なデータセットAscend-CoTを紹介する。
NPU KernelBenchも設計しています。これは、様々な複雑さレベルにわたるコンパイル、正確性、パフォーマンスを評価するための包括的なベンチマークです。
論文 参考訳(メタデータ) (2026-01-12T03:12:58Z) - Rethinking Provenance Completeness with a Learning-Based Linux Scheduler [23.33056415010496]
セキュリティの脅威や影響の根本原因分析に対するシステムの動作のトレーサビリティを維持する上で、証明は重要な役割を果たす。
近年の研究では、既存の前兆収集システムが真の基準モニターのセキュリティ保証に失敗しているかどうかを疑問視している。
証明のために特別に設計されたLinuxのスケジューラであるAegisを紹介する。
論文 参考訳(メタデータ) (2025-10-09T17:18:50Z) - Automated Vulnerability Validation and Verification: A Large Language Model Approach [7.482522010482827]
本稿では、生成AI、特に大規模言語モデル(LLM)を利用したエンドツーエンド多段階パイプラインを提案する。
本手法は,国立脆弱性データベース(National Vulnerability Database)のCVE開示情報から抽出する。
これは、Retrieval-Augmented Generation (RAG)を使用して、外部の公開知識(例えば、脅威アドバイザリ、コードスニペット)で拡張する。
パイプラインは生成されたアーティファクトを反復的に洗練し、テストケースでのアタック成功を検証し、複雑なマルチコンテナセットアップをサポートする。
論文 参考訳(メタデータ) (2025-09-28T19:16:12Z) - Evolution of Kernels: Automated RISC-V Kernel Optimization with Large Language Models [26.985412258634256]
大規模言語モデル(LLM)は、自動化されたカーネル最適化の約束を示し、包括的な技術ドキュメントと成熟した不足を伴うドメインの成功を示している。
本稿では,LLMベースの進化的プログラム検索フレームワークであるEvolution of Kernels(EoK)について紹介する。
EoKは中央値1.27倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-14T08:11:06Z) - Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs [9.986455089493779]
フォールトローカライゼーション(FL)は、ソフトウェアのバグのあるコード要素を特定することを目的としている。
最近のLLMエージェントは、SWE-benchのような最近のベンチマークでFLで有望な精度を達成した。
実世界のLinuxカーネルのバグから構築されたFLベンチマークであるLinuxFLBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T04:15:48Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。